Nos stagiaires de recherche présentent : Kevin-32B = K(ernel D)evin C’est le premier modèle ouvert entraîné à l’aide de RL pour écrire des noyaux CUDA. Nous avons implémenté l’apprentissage par renforcement multi-tours à l’aide de GRPO (basé sur QwQ-32B) sur l’ensemble de données KernelBench. Il surpasse les modèles de raisonnement de pointe (o3 et o4-mini) ! 🧵
316,09K