分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

出力をさらに改善するために、推論モデルのプロンプトを書き直すためにRLを試みた人はいますか? そうだと思いますが、かなり明白に感じますが、そうでない場合は試してみたいです。ここで既存の作業をご存知の場合は、人々がすでに行ったことをやり直さないようにしてください。

これは、次のことを意味します。 - すでにトレーニングされた凍結された推論モデル(つまり、API経由のo4-mini)を取ります。 - プロンプトを受け取り、それを書き換える小さなLLMを追加して、フリーズされたモデルのパフォーマンスを改善します - 小さい方の LLM の重みを更新し、大きい方の LLM をフリーズしたままにします。小さなLLMが、人間よりも凍結された大型モデルのCoTを「操縦」することを学習し、パフォーマンスを向上させることが期待されています。

@corbtt@brendanh0ganでこの作品を思い出させてくれました... ブレンダン、どうでしたか?私がここで考えていることとかなり似ているようです。

17.49K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable