Snabba förutsägelser. 2025: 100B+ parametermodell tränad på d-nätverk. 2026: Den första 50B+ *multimodala* modellen tränas på frivilliga GPU:er. 2027-8: Allt annat lika, GPT-3 175B tät konkurrenskraftig modell reproducerad. 2030+: En sann "frontier" decentraliserad körning, 1T params+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510 juni 2025
Tankar/förutsägelser inom decentraliserad AI-träning, 2025. 1. En sak att säga är att vi definitivt befinner oss i en annan värld med decentraliserad AI-träning än vi var för 18 månader sedan. Då var decentraliserad utbildning omöjlig och nu finns den på marknaden och är ett område. 2. Gör inga misstag, slutmålet med d-training är att träna konkurrenskraftiga, avancerade modeller på d-nätverk. Som sådan är vi bara i början av vår konkurrenskraftiga resa, men vi rör oss snabbt. 3. Det är nu konsensus att vi kan förträna och efterträna multimiljardparametermodeller (mestadels LLM:er, mestadels transformatorarkitekturer) på d-nätverk. Den nuvarande tekniken är upp till ~100B, vars övre ände är i sikte men inte har visats. 4. Det är nu konsensus att vi kan träna <10B-parametermodeller på d-nätverk ganska genomförbart. Det har också gjorts specifika fallstudier (främst från @gensynai @PrimeIntellect @NousResearch) där parametrarna 10B, 32B, 40B har tränats eller håller på att tränas. @gensynai:s svärm efter träning fungerar på upp till 72 miljarder parametermodeller. 5. Den @PluralisHQ innovationen har nu ogiltigförklarat "omöjligheten" med skalbar förträning på d-nätverk genom att ta bort flaskhalsen för kommunikationsineffektivitet. Råa FLOPs, tillförlitlighet och verifierbarhet förblir dock flaskhalsar för dessa typer av nätverk – problem som är mycket lösbara men som kommer att ta lite tid att lösa tekniskt. Med Protocol Learning from Pluralis som det ser ut tror jag att vi kommer till ~100B-modeller på 6-12 månaders tidsram. 6. Hur går vi från 100B till 300B parametermodeller? Jag tror att vi måste hitta sätt att effektivt och smidigt dela upp parametrar och hålla enskilda enheters minne relativt lågt (t.ex. <32 GB minne per enhet). Jag tror att vi måste komma upp i 20 EFlops i ett nätverk; det betyder något i stil med 10-20K konsumentenheter som körs i 4-6 veckor på en utbildning. Sammantaget är d-training redo att bli ett mycket spännande område. En del av innovationerna övervägs redan för breda AI-tillämpningar.
3,69K