Google DeepMind vient de dévoiler cette nouvelle architecture de modèle LLM appelée Mixture-of-Recursions. Elle offre une vitesse d'inférence 2x plus rapide, des FLOPs d'entraînement réduits et environ 50 % de mémoire cache KV en moins. Une lecture vraiment intéressante. Elle a le potentiel de devenir un tueur de Transformers.
Source:
237,29K