Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy OpenAI osiągnęło bardzo długie epizody RL z tym eksperymentalnym modelem?
Zrzut ekranu z artykułu @natolambert na temat "Co dalej z uczeniem przez wzmocnienie".
Nathan mówi w tym artykule - Gdzie obecne metody generują 10K-100K tokenów na odpowiedź w przypadku problemów matematycznych lub kodowych podczas treningu, rodzaj problemów, o których ludzie dyskutują w kontekście zastosowania treningu RL nowej generacji, wynosiłby 1M-100M tokenów na odpowiedź. To wymaga owinięcia wielu wywołań inferencyjnych, podpowiedzi i interakcji z otoczeniem w jednym epizodzie, przeciwko któremu aktualizowana jest polityka.
Może ten przełom to połączenie obu - bardzo długiego epizodu RL i skalowania TTC do 1M-100M tokenów na odpowiedź!


19 lip, 15:50
5/N Oprócz samego wyniku, cieszę się z naszego podejścia: osiągamy ten poziom zdolności nie poprzez wąską, specyficzną dla zadania metodologię, ale poprzez przełamywanie nowych granic w ogólnym uczeniu przez wzmocnienie i skalowaniu obliczeń w czasie testu.
8,51K
Najlepsze
Ranking
Ulubione