Våra forskningspraktikanter presenterar: Kevin-32B = K(ernel D)evin Det är den första öppna modellen som tränas med RL för att skriva CUDA-kernels. Vi implementerade flervarvs-RL med GRPO (baserat på QwQ-32B) på KernelBench-datasetet. Den överträffar de bästa resonemangsmodellerna (o3 och o4-mini)! 🧵
316,07K