O Google DeepMind acaba de lançar essa nova arquitetura de modelo LLM chamada Mix-of-Recursions. Ele obtém velocidade de inferência 2x, FLOPs de treinamento reduzidos e memória cache KV ~ 50% reduzida. Leitura realmente interessante. Tem potencial para ser um assassino de Transformers.
Fonte:
237,28K