Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Predicciones rápidas.
2025: Modelo de parámetros 100B+ entrenado en d-networks.
2026: Primer modelo 50B+ *multimodal* entrenado en GPU voluntarias.
2027-8: En igualdad de condiciones, se reproduce el modelo competitivo denso GPT-3 175B.
2030+: Una verdadera carrera descentralizada de "frontera", 1T params+.

10 jun 2025
Pensamientos/predicciones en el entrenamiento descentralizado de IA, 2025.
1. Una cosa que decir es que definitivamente estamos en un mundo diferente con el entrenamiento de IA descentralizado que hace 18 meses. En aquel entonces, la capacitación descentralizada era imposible y ahora está en el mercado y es un campo.
2. No se equivoque, el objetivo final de d-training es entrenar modelos competitivos y de frontera en d-networks. Como tal, estamos solo al comienzo de nuestro viaje competitivo, pero nos estamos moviendo rápido.
3. Ahora hay consenso en que podemos preentrenar y posentrenar modelos de parámetros de miles de millones de dólares (en su mayoría LLM, en su mayoría arquitecturas de transformadores) en redes d. El estado actual de la técnica es de hasta ~100B, cuyo extremo superior está a la vista pero no se ha mostrado.
4. Ahora es consenso que podemos entrenar modelos de parámetros <10B en redes d de manera bastante factible. También ha habido estudios de casos específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) en los que se han entrenado o se están entrenando los parámetros 10B, 32B, 40B. El enjambre post-entrenamiento de @gensynai funciona con modelos de hasta 72 mil millones de parámetros.
5. La innovación @PluralisHQ ha invalidado ahora la "imposibilidad" de la formación previa escalable en las redes d al eliminar el cuello de botella de la ineficiencia de la comunicación. Sin embargo, los FLOPs brutos, la fiabilidad y la verificabilidad siguen siendo cuellos de botella para este tipo de redes, problemas que son muy solucionables pero que tardarán algún tiempo en resolverse técnicamente. Con el aprendizaje de protocolo de Pluralis tal como está, creo que llegamos a ~ 100 mil millones de modelos en un marco de tiempo de 6 a 12 meses.
6. ¿Cómo pasamos de los modelos de parámetros 100B a 300B? Creo que tenemos que encontrar formas de fragmentar los parámetros de forma eficaz y fluida y de mantener la memoria de los dispositivos individuales relativamente baja (por ejemplo, <32 GB de memoria por dispositivo). Creo que tenemos que llegar a 20 EFlops en una red; eso significa algo así como 10-20K dispositivos de consumo funcionando durante 4-6 semanas en un entrenamiento.
En general, el d-training está preparado para ser un espacio muy emocionante. Algunas de sus innovaciones ya se están considerando para amplias aplicaciones de IA.
3.68K
Populares
Ranking
Favoritas