一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們的研究實習生介紹： Kevin-32B = K（ernel D）evin 這是第一個使用 RL 訓練的用於編寫 CUDA 內核的開放模型。我們在 KernelBench 數據集上使用 GRPO （基於 QwQ-32B）實現了多輪 RL。它的表現優於頂級推理模型（o3 & o4-mini）！🧵

316.07K