Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Previsioni rapide.
2025: modello con oltre 100 miliardi di parametri addestrato su d-reti.
2026: Primo modello *multi-modale* con oltre 50 miliardi addestrato su GPU volontarie.
2027-8: Tutto il resto uguale, modello competitivo denso GPT-3 175B riprodotto.
2030+: Una vera corsa decentralizzata "frontier", oltre 1 trilione di parametri.

10 giu 2025
Pensieri/previsioni sul training AI decentralizzato, 2025.
1. Una cosa da dire è che siamo sicuramente in un mondo diverso con il training AI decentralizzato rispetto a 18 mesi fa. All'epoca, il training decentralizzato era impossibile e ora è sul mercato ed è un campo.
2. Non fraintendete, l'obiettivo finale del d-training è addestrare modelli competitivi e all'avanguardia su reti decentralizzate. Pertanto, siamo solo all'inizio del nostro viaggio competitivo, ma stiamo procedendo rapidamente.
3. Ora c'è consenso sul fatto che possiamo pre-addestrare e post-addestrare modelli con miliardi di parametri (per lo più LLM, per lo più architetture transformer) su reti decentralizzate. Lo stato dell'arte attuale è fino a ~100B, la parte alta è in vista ma non è stata mostrata.
4. Ora c'è consenso sul fatto che possiamo addestrare modelli con meno di 10B parametri su reti decentralizzate in modo abbastanza fattibile. Ci sono stati anche casi studio specifici (principalmente da @gensynai @PrimeIntellect @NousResearch) in cui sono stati o stanno venendo addestrati modelli con 10B, 32B, 40B parametri. Il sistema di post-training di @gensynai opera su modelli fino a 72B parametri.
5. L'innovazione di @PluralisHQ ha ora invalidato l'"impossibilità" del pre-training scalabile su reti decentralizzate rimuovendo il collo di bottiglia dell'inefficienza comunicativa. Tuttavia, le FLOPs grezze, l'affidabilità e la verificabilità rimangono colli di bottiglia per questi tipi di reti -- problemi che sono molto risolvibili ma richiederanno del tempo per essere risolti tecnicamente. Con il Protocol Learning di Pluralis così com'è, penso che arriveremo a modelli di ~100B in un arco di tempo di 6-12 mesi.
6. Come possiamo passare da modelli di 100B a 300B parametri? Penso che dobbiamo trovare modi per frammentare i parametri in modo efficace e fluido e mantenere la memoria dei singoli dispositivi relativamente bassa (ad es. <32GB di memoria per dispositivo). Penso che dobbiamo arrivare a 20 EFlops in una rete; ciò significa qualcosa come 10-20K dispositivi consumer in funzione per 4-6 settimane durante un training.
In generale, il d-training è pronto per essere uno spazio molto entusiasmante. Alcune delle sue innovazioni sono già considerate per ampie applicazioni AI.
3,67K
Principali
Ranking
Preferiti