Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Czy OpenAI osiągnęło bardzo długie epizody RL z tym eksperymentalnym modelem? Zrzut ekranu z artykułu @natolambert na temat "Co dalej z uczeniem przez wzmocnienie". Nathan mówi w tym artykule - Gdzie obecne metody generują 10K-100K tokenów na odpowiedź w przypadku problemów matematycznych lub kodowych podczas treningu, rodzaj problemów, o których ludzie dyskutują w kontekście zastosowania treningu RL nowej generacji, wynosiłby 1M-100M tokenów na odpowiedź. To wymaga owinięcia wielu wywołań inferencyjnych, podpowiedzi i interakcji z otoczeniem w jednym epizodzie, przeciwko któremu aktualizowana jest polityka. Może ten przełom to połączenie obu - bardzo długiego epizodu RL i skalowania TTC do 1M-100M tokenów na odpowiedź!

8,51K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi