有没有人尝试过使用强化学习来重写推理模型的提示,以进一步改善输出? 我想应该有人尝试过,这感觉很明显,但如果没有,我想试试。 如果你知道这里有任何现有的工作,请告诉我,这样我就不会重复别人已经做过的事情!
我的意思是: - 采用一个已经训练好的、冻结的推理模型(即通过API的o4-mini) - 添加一个较小的LLM,它接受一个提示,并对其进行重写,以改善冻结模型的表现 - 更新较小LLM的权重,保持较大LLM冻结 希望这个小LLM能够比人类更好地“引导”冻结的大模型的链条推理,从而提高性能。
@corbtt 让我想起了 @brendanh0gan 的这项工作…… Brendan,进展如何?看起来和我在这里想的很相似。
Brendan Hogan
Brendan Hogan7月3日 08:26
大型模型是优秀的代理,但往往过于庞大、封闭或脆弱,难以进行微调 想法:训练一个小模型为一个冻结的大模型创建上下文,评估大模型的输出,将其作为小模型的奖励 用于上下文调优的组。更多内容如下
17.49K