Наши стажеры-исследователи представляют: Кевин-32Б = К(эрнел Д)евин Это первая открытая модель, обученная с использованием RL для написания ядер CUDA. Мы реализовали многооборотное RL с помощью GRPO (на основе QwQ-32B) на датасете KernelBench. Он превосходит топовые модели рассуждений (o3 и o4-mini)! 🧵
316,09K