Tanker/spådommer i desentralisert AI-opplæring, 2025. 1. En ting å si er at vi definitivt er i en annen verden med desentralisert AI-opplæring enn vi var for 18 måneder siden. Den gang var desentralisert opplæring umulig, og nå er det i markedet og er et felt. 2. Gjør ingen feil, sluttmålet med d-trening er å trene konkurransedyktige, grensemodeller på d-nettverk. Som sådan er vi bare i starten av vår konkurransereise, men vi beveger oss raskt. 3. Det er nå konsensus om at vi kan forhåndstrene og ettertrene multi-milliarder parametermodeller (for det meste LLM-er, for det meste transformatorarkitekturer) på d-nettverk. Den nåværende teknologien er opptil ~100B, hvis øvre ende er i sikte, men ikke har blitt vist. 4. Det er nå konsensus om at vi kan trene <10B-parametermodeller på d-nettverk ganske mulig. Det har også vært spesifikke casestudier (primært fra @gensynai @PrimeIntellect @NousResearch) der 10B, 32B, 40B parametere har blitt eller blir trent. @gensynai sverm etter trening opererer på opptil 72B parametermodeller. 5. Den @PluralisHQ innovasjonen har nå ugyldiggjort "umuligheten" av skalerbar forhåndsopplæring på d-nettverk ved å fjerne flaskehalsen for kommunikasjonsineffektivitet. Imidlertid er rå FLOP-er, pålitelighet og verifiserbarhet fortsatt flaskehalser for denne typen nettverk - problemer som er svært løselige, men som vil ta litt tid å løse teknisk. Med Protocol Learning from Pluralis slik det står, tror jeg vi kommer til ~100B modeller på 6-12 måneders tidsramme. 6. Hvordan kommer vi fra 100B til 300B parametermodeller? Jeg tror vi må finne måter å effektivt og flytende fragmentere parametere og holde individuelt enhetsminne relativt lavt (f.eks. <32 GB minne per enhet). Jeg tror vi må komme til 20 EFlops i et nettverk; det betyr noe sånt som 10-20K forbrukerenheter som kjører i 4-6 uker på en trening. Totalt sett er d-trening klar til å bli et veldig spennende rom. Noen av innovasjonene vurderes allerede for brede AI-applikasjoner.
4,16K