我们的研究实习生介绍: Kevin-32B = K(ernel D)evin 这是第一个使用 RL 训练的用于编写 CUDA 内核的开放模型。我们在 KernelBench 数据集上使用 GRPO (基于 QwQ-32B)实现了多轮 RL。 它的表现优于顶级推理模型(o3 & o4-mini)!🧵
316.07K