トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
出力をさらに改善するために、推論モデルのプロンプトを書き直すためにRLを試みた人はいますか?
そうだと思いますが、かなり明白に感じますが、そうでない場合は試してみたいです。
ここで既存の作業をご存知の場合は、人々がすでに行ったことをやり直さないようにしてください。
これは、次のことを意味します。
- すでにトレーニングされた凍結された推論モデル(つまり、API経由のo4-mini)を取ります。
- プロンプトを受け取り、それを書き換える小さなLLMを追加して、フリーズされたモデルのパフォーマンスを改善します
- 小さい方の LLM の重みを更新し、大きい方の LLM をフリーズしたままにします。
小さなLLMが、人間よりも凍結された大型モデルのCoTを「操縦」することを学習し、パフォーマンスを向上させることが期待されています。
@corbtt@brendanh0ganでこの作品を思い出させてくれました...
ブレンダン、どうでしたか?私がここで考えていることとかなり似ているようです。

7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17.49K
トップ
ランキング
お気に入り