トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
出力をさらに改善するために、推論モデルのプロンプトを書き直すためにRLを試みた人はいますか?
そうだと思いますが、かなり明白に感じますが、そうでない場合は試してみたいです。
ここで既存の作業をご存知の場合は、人々がすでに行ったことをやり直さないようにしてください。
これは、次のことを意味します。
- すでにトレーニングされた凍結された推論モデル(つまり、API経由のo4-mini)を取ります。
- プロンプトを受け取り、それを書き換える小さなLLMを追加して、フリーズされたモデルのパフォーマンスを改善します
- 小さい方の LLM の重みを更新し、大きい方の LLM をフリーズしたままにします。
小さなLLMが、人間よりも凍結された大型モデルのCoTを「操縦」することを学習し、パフォーマンスを向上させることが期待されています。
@corbtt@brendanh0ganでこの作品を思い出させてくれました...
ブレンダン、どうでしたか?私がここで考えていることとかなり似ているようです。

7月3日 08:26
大きなモデルは優れたエージェントですが、多くの場合、大きすぎたり、閉じていたり、繊細すぎて微調整できません
アイデア: 小さなモデルをトレーニングして、凍結した大きなモデルのコンテキストを作成し、大きなモデルの出力をスコアリングし、それを小さなモデルの報酬として使用します
コンテキストチューニング用のgRPO。詳細は以下をご覧ください

17.49K
トップ
ランキング
お気に入り