Google DeepMind щойно відмовився від цієї нової архітектури моделі LLM під назвою Mix-of-Recursions. Він отримав 2-кратну швидкість логічного висновку, зменшену кількість тренувальних провалів і ~50% зменшену кеш-пам'ять KV. Дійсно цікаво читати. Має потенціал стати вбивцею Трансформерів.
Джерело:
237,28K