Stagiarii noștri de cercetare prezintă: Kevin-32B = K(ernel D)evin Este primul model deschis antrenat folosind RL pentru scrierea nucleelor CUDA. Am implementat RL cu mai multe rotații folosind GRPO (bazat pe QwQ-32B) pe setul de date KernelBench. Depășește modelele de raționament de top (o3 și o4-mini)! 🧵
316,07K