OpenAIは、この実験モデルで非常に長いエピソードのRLを達成しましたか? @natolambertの記事「強化学習の次はどうなるのか」のスクリーンショット。 Nathanはこの記事で次のように述べています - 現在の方法では、トレーニング中の数学またはコードの問題に対して回答ごとに10K〜100Kトークンが生成されていますが、次世代RLトレーニングを適用するために人々が議論する種類の問題は、回答ごとに1M〜100Mトークンになります。これには、ポリシーが更新される 1 つのエピソード内で、複数の推論呼び出し、プロンプト、および環境との対話をラップすることが含まれます。 おそらく、このブレークスルーは、非常に長いエピソードのRLと、TTCを回答ごとに1M-100Mトークンにスケーリングする両方の組み合わせです!
Alexander Wei
Alexander Wei7月19日 15:50
5/N 結果自体に加えて、私は私たちのアプローチに興奮しています:私たちは、狭いタスク固有の方法論ではなく、汎用強化学習とテスト時のコンピューティングスケーリングの新境地を開拓することによって、この能力レベルに到達します。
8.51K