za każdym razem, gdy czytasz raport technologiczny z modelu open-source SOTA, który w zasadzie ośmiesza 99% modeli zachodnich laboratoriów (oprócz absolutnie najlepszych 2), zawsze brzmi to tak: "tak, w zasadzie skurczyliśmy bardzo wysokiej jakości dane, starannie wygenerowaliśmy dużo danych [z powodu braku debilizmu], a następnie zastosowaliśmy wszystkie najlepsze sztuczki i rzeczy, które widzieliśmy w ciągu ostatnich 12 miesięcy dotyczących infrastruktury, post-treningu itd. i wymyśliliśmy jeden lub dwa [bo mamy gust / zależy nam]". liczba firm w USA, które mogłyby to robić z $$$, które są im rzucane, a żadna z nich tak naprawdę nigdy nie robi nic podobnego, wiele mówi o puli talentów w tych firmach.
"użyliśmy Muon jako optymalizatora, dostosowaliśmy go i spędziliśmy cały nasz czas na budowaniu pipeline'u do generacji i walidacji danych. Reszta jest specyficzna dla naszej liczby obliczeń i konkretnej infrastruktury + wszystkie najlepsze w klasie, które z tego wynikają" wow
vs "pracujemy nad bezpieczną i zyskowną SuperInteligencją. AGI jest blisko. Dni inżynierów dobiegają końca. Rekrutacja na 500 inżynierów."
66,99K