Nuestros pasantes de investigación presentan: Kevin-32B = K(ernel D)evin Es el primer modelo abierto entrenado con RL para escribir kernels CUDA. Implementamos RL multiturno usando GRPO (basado en QwQ-32B) en el conjunto de datos de KernelBench. ¡Supera a los modelos de razonamiento superior (o3 y o4-mini)! 🧵
316.08K