Szybkie prognozy. 2025: Model z parametrami 100B+ wytrenowany na d-sieciach. 2026: Pierwszy model 50B+ *multi-modalny* wytrenowany na dobrowolnych GPU. 2027-8: Przy wszystkich innych równych, model konkurencyjny GPT-3 175B gęsty odtworzony. 2030+: Prawdziwy "frontier" zdecentralizowany bieg, 1T parametry+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510 cze 2025
Myśli/prognozy dotyczące zdecentralizowanego szkolenia AI, 2025. 1. Jedną rzeczą, którą można powiedzieć, jest to, że zdecydowanie znajdujemy się w innym świecie ze zdecentralizowanym szkoleniem AI niż 18 miesięcy temu. Wtedy zdecentralizowane szkolenie było niemożliwe, a teraz jest na rynku i stanowi dziedzinę. 2. Nie ma wątpliwości, że ostatecznym celem d-szkolenia jest trenowanie konkurencyjnych, nowatorskich modeli na d-sieciach. W związku z tym jesteśmy dopiero na początku naszej konkurencyjnej podróży, ale poruszamy się szybko. 3. Teraz panuje konsensus, że możemy wstępnie trenować i po-trenować modele o wielkości wielu miliardów parametrów (głównie LLM, głównie architektury transformatorowe) na d-sieciach. Obecny stan sztuki sięga ~100B, z górnym końcem, który jest w zasięgu, ale nie został jeszcze pokazany. 4. Teraz panuje konsensus, że możemy trenować modele <10B parametrów na d-sieciach dość wykonalnie. Były również konkretne studia przypadków (głównie od @gensynai @PrimeIntellect @NousResearch), w których trenowano lub są trenowane modele o 10B, 32B, 40B parametrach. Post-treningowy rój @gensynai działa na modelach o wielkości do 72B parametrów. 5. Innowacja @PluralisHQ unieważniła teraz "niemożliwość" skalowalnego wstępnego szkolenia na d-sieciach, eliminując wąskie gardło związane z nieefektywnością komunikacyjną. Jednak surowe FLOPy, niezawodność i weryfikowalność pozostają wąskimi gardłami dla tych typów sieci - problemy, które są bardzo rozwiązywalne, ale zajmie trochę czasu, aby je technicznie rozwiązać. Z Protocol Learning od Pluralis, jak to wygląda, myślę, że osiągniemy modele ~100B w ciągu 6-12 miesięcy. 6. Jak przejść od modeli 100B do 300B parametrów? Myślę, że musimy znaleźć sposoby na efektywne i płynne dzielenie parametrów oraz utrzymanie pamięci poszczególnych urządzeń na stosunkowo niskim poziomie (np. <32GB pamięci na urządzenie). Myślę, że musimy osiągnąć 20 EFlops w sieci; to oznacza coś w rodzaju 10-20K urządzeń konsumenckich działających przez 4-6 tygodni na treningu. Ogólnie rzecz biorąc, d-szkolenie ma potencjał, aby stać się bardzo ekscytującą przestrzenią. Niektóre z jego innowacji są już rozważane do szerokich zastosowań AI.
3,68K