热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有没有人尝试过使用强化学习来重写推理模型的提示,以进一步改善输出?
我想应该有人尝试过,这感觉很明显,但如果没有,我想试试。
如果你知道这里有任何现有的工作,请告诉我,这样我就不会重复别人已经做过的事情!
我的意思是:
- 采用一个已经训练好的、冻结的推理模型(即通过API的o4-mini)
- 添加一个较小的LLM,它接受一个提示,并对其进行重写,以改善冻结模型的表现
- 更新较小LLM的权重,保持较大LLM冻结
希望这个小LLM能够比人类更好地“引导”冻结的大模型的链条推理,从而提高性能。
@corbtt 让我想起了 @brendanh0gan 的这项工作……
Brendan,进展如何?看起来和我在这里想的很相似。

7月3日 08:26
大型模型是优秀的代理,但往往过于庞大、封闭或脆弱,难以进行微调
想法:训练一个小模型为一个冻结的大模型创建上下文,评估大模型的输出,将其作为小模型的奖励
用于上下文调优的组。更多内容如下

17.49K
热门
排行
收藏