Alguns trabalhos realmente ótimos de @carlobaronio @pmmarsella @ybenpan! Ainda há um longo horizonte pela frente para os agentes de várias voltas :)
Cognition
Cognition7/05/2025
Os nossos estagiários de investigação apresentam: Kevin-32B = K(ernel D)evin É o primeiro modelo aberto treinado usando RL para escrever kernels CUDA. Implementamos RL multi-turno usando GRPO (baseado em QwQ-32B) no conjunto de dados KernelBench. Supera os modelos de raciocínio de topo (o3 & o4-mini)! 🧵
5,85K