O Google DeepMind acaba de lançar esta nova arquitetura de modelo LLM chamada Mixture-of-Recursions. Ela oferece o dobro da velocidade de inferência, redução dos FLOPs de treino e cerca de 50% de redução na memória do cache KV. Uma leitura realmente interessante. Tem potencial para ser um assassino dos Transformers.
Fonte:
237,3K