熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們的研究實習生介紹:
Kevin-32B = K(ernel D)evin
這是第一個使用 RL 訓練的用於編寫 CUDA 內核的開放模型。我們在 KernelBench 數據集上使用 GRPO (基於 QwQ-32B)實現了多輪 RL。
它的表現優於頂級推理模型(o3 & o4-mini)!🧵

316.07K
熱門
排行
收藏