AutoML GRPO 将 hipster RL 训练商品化为一个函数调用
Wandering Weights
Wandering Weights7月23日 16:02
下个月要进行一次新奇搜索,所以我退后一步,看看自上次以来我们实际上交付了什么。真是疯狂,当你全神贯注时事情进展得多快: * 添加了 DPO * 添加了 GRPO * 针对 Meta 的原生指令训练管道进行了测试 * 数百个实验 + 论文证明 @gradients_ai 超越了竞争对手 然后是重大变化:5.0 → 完全转向开源,面向企业的子网 这一切都发生在过去三个月。对吗?🤯
3.01K