Google DeepMind har precis släppt denna nya LLM-modellarkitektur som kallas Mixture-of-Recursions. Den får 2x inferenshastighet, minskade tränings-FLOPs och ~50 % minskat KV-cacheminne. Riktigt intressant läsning. Har potential att bli en Transformers mördare.
Källa:
237,31K