Um ótimo trabalho de @carlobaronio @pmmarsella @ybenpan! Ainda há um longo horizonte pela frente para agentes de vários turnos :)
Cognition
Cognition7 de mai. de 2025
Nossos estagiários de pesquisa apresentam: Kevin-32B = K(ernel D)evina É o primeiro modelo aberto treinado usando RL para escrever kernels CUDA. Implementamos RL multi-turnos usando GRPO (baseado em QwQ-32B) no conjunto de dados KernelBench. Ele supera os principais modelos de raciocínio (o3 e o4-mini)! 🧵
5,86K