一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们的研究实习生介绍： Kevin-32B = K（ernel D）evin 这是第一个使用 RL 训练的用于编写 CUDA 内核的开放模型。我们在 KernelBench 数据集上使用 GRPO （基于 QwQ-32B）实现了多轮 RL。它的表现优于顶级推理模型（o3 & o4-mini）！🧵

316.07K