Predicții rapide. 2025: Model de parametri 100B+ antrenat pe rețelele d. 2026: Primul model 50B+ *multi-modal* antrenat pe GPU-uri voluntare. 2027-8: Toate celelalte sunt egale, modelul competitiv dens GPT-3 175B a fost reprodus. 2030+: O adevărată "frontieră" descentralizată, 1T params+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510 iun. 2025
Gânduri/predicții în antrenamentul AI descentralizat, 2025. 1. Un lucru de spus este că suntem cu siguranță într-o lume diferită cu antrenamentul AI descentralizat decât eram acum 18 luni. Pe atunci, instruirea descentralizată era imposibilă și acum este pe piață și este un domeniu. 2. Nu vă înșelați, scopul final al d-training este de a antrena modele competitive, de frontieră pe rețelele d. Ca atare, suntem doar la începutul călătoriei noastre competitive, dar ne mișcăm rapid. 3. Acum este un consens că putem pre-antrena și post-antrena modele de mai multe miliarde de parametri (în mare parte LLM-uri, în mare parte arhitecturi de transformatoare) pe rețelele d. Starea actuală a artei este de până la ~100B, al cărei capăt superior este la vedere, dar nu a fost arătat. 4. Acum este consens că putem antrena modele de parametri <10B pe rețelele d destul de fezabil. Au existat, de asemenea, studii de caz specifice (în principal din @gensynai @PrimeIntellect @NousResearch) în care parametrii 10B, 32B, 40B au fost sau sunt antrenați. Roiul post-antrenament al @gensynai funcționează pe modele de până la 72 de miliarde de parametri. 5. Inovația @PluralisHQ a invalidat acum "imposibilitatea" pre-instruirii scalabile pe rețelele D prin eliminarea blocajului de ineficiență a comunicațiilor. Cu toate acestea, FLOP-urile brute, fiabilitatea și verificabilitatea rămân blocaje pentru aceste tipuri de rețele - probleme care sunt foarte rezolvabile, dar vor dura ceva timp pentru a fi rezolvate din punct de vedere tehnic. Cu Protocol Learning from Pluralis așa cum este, cred că ajungem la ~100B modele pe un interval de timp de 6-12 luni. 6. Cum ajungem de la modele de parametri 100B la 300B? Cred că trebuie să găsim modalități de a fragmenta eficient și fluid parametrii și de a menține memoria individuală a dispozitivului relativ scăzută (de exemplu, <32 GB de memorie per dispozitiv). Cred că trebuie să ajungem la 20 de EFlops într-o rețea; asta înseamnă ceva de genul 10-20K dispozitive de consum care rulează timp de 4-6 săptămâni într-un antrenament. În general, d-training este pregătit să fie un spațiu foarte interesant. Unele dintre inovațiile sale sunt deja luate în considerare pentru aplicații largi de inteligență artificială.
3,67K