我們的研究實習生介紹: Kevin-32B = K(ernel D)evin 這是第一個使用 RL 訓練的用於編寫 CUDA 內核的開放模型。我們在 KernelBench 數據集上使用 GRPO (基於 QwQ-32B)實現了多輪 RL。 它的表現優於頂級推理模型(o3 & o4-mini)!🧵
316.07K