Schnelle Vorhersagen. 2025: 100B+ Parameter-Modell, das auf d-Netzwerken trainiert wird. 2026: Erstes 50B+ *multi-modales* Modell, das auf freiwilligen GPUs trainiert wird. 2027-8: Bei gleichbleibenden Bedingungen wird ein konkurrenzfähiges Modell mit 175B dichten Parametern von GPT-3 reproduziert. 2030+: Ein echtes "Frontier"-dezentralisiertes Lauf, 1T+ Parameter.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510. Juni 2025
Gedanken/Vorhersagen zum dezentralen KI-Training, 2025. 1. Eines ist sicher: Wir befinden uns definitiv in einer anderen Welt mit dezentralem KI-Training als vor 18 Monaten. Damals war dezentrales Training unmöglich und jetzt ist es auf dem Markt und ein eigenes Feld. 2. Machen Sie keinen Fehler, das Endziel des d-Trainings ist es, wettbewerbsfähige, fortschrittliche Modelle auf d-Netzwerken zu trainieren. Daher stehen wir erst am Anfang unserer Wettbewerbsreise, aber wir bewegen uns schnell. 3. Es besteht jetzt Konsens, dass wir Multi-Milliarden-Parameter-Modelle (hauptsächlich LLMs, hauptsächlich Transformer-Architekturen) auf d-Netzwerken vortrainieren und nachtrainieren können. Der aktuelle Stand der Technik liegt bei bis zu ~100B, das obere Ende ist in Sicht, wurde aber noch nicht gezeigt. 4. Es besteht jetzt Konsens, dass wir <10B-Parameter-Modelle auf d-Netzwerken ziemlich machbar trainieren können. Es gab auch spezifische Fallstudien (hauptsächlich von @gensynai @PrimeIntellect @NousResearch), bei denen 10B, 32B, 40B Parameter trainiert wurden oder werden. Der Post-Training-Schwarm von @gensynai arbeitet mit Modellen von bis zu 72B Parametern. 5. Die Innovation von @PluralisHQ hat nun die "Unmöglichkeit" des skalierbaren Vortrainings auf d-Netzwerken ungültig gemacht, indem sie den Engpass der Kommunikationsineffizienz beseitigt hat. Roh-FLOPs, Zuverlässigkeit und Überprüfbarkeit bleiben jedoch Engpässe für diese Arten von Netzwerken – Probleme, die sehr lösbar sind, aber einige Zeit in Anspruch nehmen werden, um technisch gelöst zu werden. Mit dem Protokoll-Lernen von Pluralis, wie es derzeit steht, denke ich, dass wir in einem Zeitraum von 6-12 Monaten zu ~100B-Modellen gelangen. 6. Wie kommen wir von 100B zu 300B-Parameter-Modellen? Ich denke, wir müssen Wege finden, Parameter effektiv und flüssig zu sharden und den individuellen Gerätespeicher relativ niedrig zu halten (z. B. <32GB Speicher pro Gerät). Ich denke, wir müssen in einem Netzwerk auf 20 EFlops kommen; das bedeutet etwas wie 10-20K Endgeräte, die 4-6 Wochen lang für ein Training laufen. Insgesamt steht d-Training kurz davor, ein sehr spannendes Feld zu werden. Einige seiner Innovationen werden bereits für breite KI-Anwendungen in Betracht gezogen.
3,68K