Echt geweldig werk van @carlobaronio @pmmarsella @ybenpan! Nog een lange horizon voor de boeg voor multi-turn agents :)
Cognition
Cognition7 mei 2025
Onze onderzoeksstagiaires presenteren: Kevin-32B = K(ernel D)evin Het is het eerste open model dat is getraind met RL voor het schrijven van CUDA-kernels. We hebben multi-turn RL geïmplementeerd met behulp van GRPO (gebaseerd op QwQ-32B) op de KernelBench-dataset. Het presteert beter dan de beste redenerende modellen (o3 & o4-mini)! 🧵
5,86K