Czy OpenAI osiągnęło bardzo długie epizody RL z tym eksperymentalnym modelem? Zrzut ekranu z artykułu @natolambert na temat "Co dalej z uczeniem przez wzmocnienie". Nathan mówi w tym artykule - Gdzie obecne metody generują 10K-100K tokenów na odpowiedź w przypadku problemów matematycznych lub kodowych podczas treningu, rodzaj problemów, o których ludzie dyskutują w kontekście zastosowania treningu RL nowej generacji, wynosiłby 1M-100M tokenów na odpowiedź. To wymaga owinięcia wielu wywołań inferencyjnych, podpowiedzi i interakcji z otoczeniem w jednym epizodzie, przeciwko któremu aktualizowana jest polityka. Może ten przełom to połączenie obu - bardzo długiego epizodu RL i skalowania TTC do 1M-100M tokenów na odpowiedź!
Alexander Wei
Alexander Wei19 lip, 15:50
5/N Oprócz samego wyniku, cieszę się z naszego podejścia: osiągamy ten poziom zdolności nie poprzez wąską, specyficzną dla zadania metodologię, ale poprzez przełamywanie nowych granic w ogólnym uczeniu przez wzmocnienie i skalowaniu obliczeń w czasie testu.
8,51K