Nossos estagiários de pesquisa apresentam: Kevin-32B = K(ernel D)evina É o primeiro modelo aberto treinado usando RL para escrever kernels CUDA. Implementamos RL multi-turnos usando GRPO (baseado em QwQ-32B) no conjunto de dados KernelBench. Ele supera os principais modelos de raciocínio (o3 e o4-mini)! 🧵
316,08K