大型模型是优秀的代理,但往往过于庞大、封闭或脆弱,难以进行微调 想法:训练一个小模型为一个冻结的大模型创建上下文,评估大模型的输出,将其作为小模型的奖励 用于上下文调优的组。更多内容如下
11.59K