Наші наукові стажери представляють: Кевін-32Б = К(Ернел Д)евін Це перша відкрита модель, навчена використовувати RL для написання ядер CUDA. Ми впровадили багатооборотний RL з використанням GRPO (на основі QwQ-32B) на наборі даних KernelBench. Він перевершує найкращі моделі міркувань (o3 і o4-mini)! 🧵
316,08K