l'attention n-simplex a un sens incroyable en raison de son honnêteté : elle dit littéralement que vous pouvez mettre plus de puissance de calcul sur l'opération d'attention pour obtenir plus de gains : nous avons vu cette tendance tant de fois. Cela diffère de beaucoup de revendications 'suspectes', telles que vous pouvez utiliser moins de puissance de calcul pour obtenir des résultats similaires (c'est-à-dire un calcul subquadratique pour égaler un calcul quadratique).
43,65K