有沒有人嘗試過使用強化學習來重寫推理模型的提示,以進一步改善輸出? 我假設應該有,這感覺相當明顯,但如果沒有,我想試試看。 如果你知道這方面的任何現有工作,請告訴我,這樣我就不會重複已經有人做過的事情!
我的意思是: - 使用一個已經訓練好的、固定的推理模型(即通過API的o4-mini) - 添加一個較小的LLM,該模型接收提示並重寫它,以改善固定模型的表現 - 更新較小LLM的權重,保持較大的LLM不變 希望這個小LLM能學會比人類更好地“引導”固定較大模型的CoT,從而提高性能。
@corbtt 讓我想起了 @brendanh0gan 的這項工作... Brendan,進展如何?看起來和我在這裡的想法非常相似。
Brendan Hogan
Brendan Hogan7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17.49K