Os nossos estagiários de investigação apresentam: Kevin-32B = K(ernel D)evin É o primeiro modelo aberto treinado usando RL para escrever kernels CUDA. Implementamos RL multi-turno usando GRPO (baseado em QwQ-32B) no conjunto de dados KernelBench. Supera os modelos de raciocínio de topo (o3 & o4-mini)! 🧵
316,09K