Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Max Ryabinin
Głębokie uczenie i badania na dużą skalę @togethercompute
Autor Learning@home/Hivemind (DMoE, DeDLOC, SWARM, Petals)
Doktorat ze zdecentralizowanej DL '2023
Jeśli jesteś na ICML i interesujesz się weryfikowalnym wnioskowaniem, koniecznie wpadnij na nasz plakat!
Przedstawimy TOPLOC, efektywną metodę haszowania aktywacji, która działa w różnych ustawieniach, np. w przypadku zmiany konfiguracji wnioskowania lub nawet modeli.
16 lipca, godz. 16:30, E-1106
1,42K
Z mojego doświadczenia wynika, że uzyskanie akceptacji artykułu na temat zdecentralizowanego DL na konferencjach na najwyższym poziomie może być dość trudne. Motywacja nie jest znana wielu recenzentom, a standardowe ustawienia eksperymentów nie uwzględniają problemów, które chcesz rozwiązać.
Dlatego bardzo się cieszę, że firmy takie jak @PluralisHQ i @PrimeIntellect inwestują wysiłek w dzielenie się swoimi wynikami i publikowanie ich na dużych konferencjach! IMO nawet przygotowanie zgłoszenia zmusza cię do większej rygorystyczności w kwestii twoich eksperymentów, a zewnętrzne opinie od recenzentów pomagają wyostrzyć przesłanie artykułu.

Alexander Long14 lip, 08:24
Dla osób, które nie są zaznajomione z publikowaniem w AI; co roku odbywają się 3 główne konferencje. ICML, ICLR i NeurIPS. To są konferencje techniczne i odpowiadają czasopismom w innych dziedzinach - są głównym miejscem publikacji w AI. Konkurencja o przyjęcie prac na te konferencje osiągnęła już absurdalny poziom, akceptacja prac jest bardzo trudna, a wiele osób ma obawy co do procesu recenzji, który w tym momencie jest dość hałaśliwy. Silna praca bez wad ma około 50% szans na akceptację, a zazwyczaj praca jest składana z poprawkami od recenzentów kilka razy, aż zostanie zaakceptowana. Mimo to, prace w tych miejscach pozostają głównym znakiem legitymacji w świecie AI i prawdopodobnie nadal są głównymi wskaźnikami kariery dla badaczy ML (chociaż moim zdaniem to słabnie, ponieważ tak wiele badań w laboratoriach na granicy nie jest publikowanych).
Prace głównego toru różnią się znacznie od prac warsztatowych. Główny tor ma intensywną, poważną recenzję rówieśniczą. Prace warsztatowe są dla wstępnych badań, które dają pewne wskazanie interesującego wyniku, ale są albo niekompletne, albo wynik nie jest wystarczająco znaczący dla głównego toru. Muszą być recenzowane tylko przez pulę recenzentów warsztatowych i nie pojawiają się w materiałach konferencyjnych.
Wiele świetnych prac po raz pierwszy pojawiło się na warsztatach (np. grokking) - ale prace warsztatowe i głównego toru to zasadniczo różne rzeczy, z zasadniczo różnym poziomem wpływu. Jedynymi dwiema firmami w zdecentralizowanej AI, które mają prace głównego toru w tym roku, są @PrimeIntellect i Pluralis.
7,26K
Użytkownik Max Ryabinin udostępnił ponownie
@gowthami_s @JangLawrenceK @IAmTimNguyen @ishapuri101 Trenowanie rozproszone w uczeniu maszynowym🌍
Dołącz do nas 12 lipca, gdy @Ar_Douillard będzie badać kluczowe metody, takie jak FSDP, Pipeline & Expert Parallelism, a także nowe podejścia, takie jak DiLoCo i SWARM, przesuwając granice globalnego, rozproszonego szkolenia.
Dowiedz się więcej:

7,27K
Bardzo dziękuję Ferdinandowi za zorganizowanie tej rozmowy! To była świetna okazja, aby omówić wszystkie części SWARM i szczegółowo przedyskutować motywacje stojące za nimi.
Mam nadzieję, że ten film sprawi, że zdecentralizowane DL będzie bardziej dostępne: wiele pomysłów w tej dziedzinie jest prostszych, niż się wydaje!

Ferdinand Mom12 cze 2025
Recenzja wideo artykułu badawczego na temat "Swarm Parallelism" wraz z autorem @m_ryabinin, Wybitnym Naukowcem Badawczym @togethercompute jest już dostępna! Link poniżej 👇
Dla kontekstu, większość zdecentralizowanego treningu dzisiaj opiera się na podejściu DDP, które wymaga pełnej replikacji modelu na każdym węźle. Chociaż jest to praktyczne dla tych, którzy mają do dyspozycji klastry H100, pozostaje to poza zasięgiem dla ogromnej większości potencjalnych współpracowników, tutaj SWARM staje się przydatny!

3,11K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi