一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

有没有人尝试过使用强化学习来重写推理模型的提示，以进一步改善输出？我想应该有人尝试过，这感觉很明显，但如果没有，我想试试。如果你知道这里有任何现有的工作，请告诉我，这样我就不会重复别人已经做过的事情！

我的意思是： - 采用一个已经训练好的、冻结的推理模型（即通过API的o4-mini） - 添加一个较小的LLM，它接受一个提示，并对其进行重写，以改善冻结模型的表现 - 更新较小LLM的权重，保持较大LLM冻结希望这个小LLM能够比人类更好地“引导”冻结的大模型的链条推理，从而提高性能。

@corbtt 让我想起了 @brendanh0gan 的这项工作…… Brendan，进展如何？看起来和我在这里想的很相似。

17.49K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可