出力をさらに改善するために、推論モデルのプロンプトを書き直すためにRLを試みた人はいますか? そうだと思いますが、かなり明白に感じますが、そうでない場合は試してみたいです。 ここで既存の作業をご存知の場合は、人々がすでに行ったことをやり直さないようにしてください。
これは、次のことを意味します。 - すでにトレーニングされた凍結された推論モデル(つまり、API経由のo4-mini)を取ります。 - プロンプトを受け取り、それを書き換える小さなLLMを追加して、フリーズされたモデルのパフォーマンスを改善します - 小さい方の LLM の重みを更新し、大きい方の LLM をフリーズしたままにします。 小さなLLMが、人間よりも凍結された大型モデルのCoTを「操縦」することを学習し、パフォーマンスを向上させることが期待されています。
@corbtt@brendanh0ganでこの作品を思い出させてくれました... ブレンダン、どうでしたか?私がここで考えていることとかなり似ているようです。
Brendan Hogan
Brendan Hogan7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17.49K