n-simplex 注意力是非常合理的,因为它的诚实:它字面上说你可以在注意力操作上投入更多的计算资源以获得更多的收益:我们已经多次看到这种趋势。 这与许多“可疑”的说法不同,例如你可以使用更少的计算资源来实现相似的效果(即,使用次线性计算来匹配二次计算)。
43.64K