熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
有沒有人嘗試過使用強化學習來重寫推理模型的提示,以進一步改善輸出?
我假設應該有,這感覺相當明顯,但如果沒有,我想試試看。
如果你知道這方面的任何現有工作,請告訴我,這樣我就不會重複已經有人做過的事情!
我的意思是:
- 使用一個已經訓練好的、固定的推理模型(即通過API的o4-mini)
- 添加一個較小的LLM,該模型接收提示並重寫它,以改善固定模型的表現
- 更新較小LLM的權重,保持較大的LLM不變
希望這個小LLM能學會比人類更好地“引導”固定較大模型的CoT,從而提高性能。
@corbtt 讓我想起了 @brendanh0gan 的這項工作...
Brendan,進展如何?看起來和我在這裡的想法非常相似。

7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17.49K
熱門
排行
收藏