AutoML GRPO komodyfikuje trening hipsterskiego RL w wywołanie funkcji
Wandering Weights
Wandering Weights23 lip, 16:02
Zbliża się nowa sesja poszukiwań w przyszłym miesiącu, więc cofnąłem się, aby zobaczyć, co właściwie wysłaliśmy od ostatniej. Dziwne, jak szybko wszystko się zmienia, gdy jesteś skupiony: * Dodano DPO * Dodano GRPO * Przetestowano natywny pipeline do szkolenia Instruct w porównaniu do Meta * Setki eksperymentów + artykuł dowodzący, że @gradients_ai przewyższa konkurencję A potem to najważniejsze: 5.0 → pełny pivot w kierunku otwartego oprogramowania, skoncentrowanego na przedsiębiorstwach Wszystko to wydarzyło się w ciągu ostatnich trzech miesięcy. Czy to prawda? 🤯
3,02K