AutoML GRPO 將 hipster RL 訓練商品化為一個函數調用
Wandering Weights
Wandering Weights7月23日 16:02
下個月要進行新奇搜索,所以我退後一步看看自上次以來我們實際上發送了什麼。當你全心投入時,事情發展得真快: * 添加了 DPO * 添加了 GRPO * 原生指令訓練管道已針對 Meta 進行測試 * 數百次實驗 + 論文證明 @gradients_ai 超越競爭對手 然後是最大的變化:5.0 → 完全轉向開源,專注於企業的子網 這一切都發生在過去三個月。對嗎?🤯
3.01K