出力をさらに改善するために、推論モデルのプロンプトを書き直すためにRLを試みた人はいますか? そうだと思いますが、かなり明白に感じますが、そうでない場合は試してみたいです。 ここで既存の作業をご存知の場合は、人々がすでに行ったことをやり直さないようにしてください。
これは、次のことを意味します。 - すでにトレーニングされた凍結された推論モデル(つまり、API経由のo4-mini)を取ります。 - プロンプトを受け取り、それを書き換える小さなLLMを追加して、フリーズされたモデルのパフォーマンスを改善します - 小さい方の LLM の重みを更新し、大きい方の LLM をフリーズしたままにします。 小さなLLMが、人間よりも凍結された大型モデルのCoTを「操縦」することを学習し、パフォーマンスを向上させることが期待されています。
@corbtt@brendanh0ganでこの作品を思い出させてくれました... ブレンダン、どうでしたか?私がここで考えていることとかなり似ているようです。
Brendan Hogan
Brendan Hogan7月3日 08:26
大きなモデルは優れたエージェントですが、多くの場合、大きすぎたり、閉じていたり、繊細すぎて微調整できません アイデア: 小さなモデルをトレーニングして、凍結した大きなモデルのコンテキストを作成し、大きなモデルの出力をスコアリングし、それを小さなモデルの報酬として使用します コンテキストチューニング用のgRPO。詳細は以下をご覧ください
17.49K