大模型是很好的代理,但通常太大、太封閉或太脆弱而無法微調 想法:訓練一個小模型來為凍結的大模型製作上下文,對大模型的輸出進行評分,將其用作對小模型的獎勵 grpo 進行上下文優化。更多內容
11.59K