Beberapa pekerjaan yang sangat hebat dari @carlobaronio @pmmarsella @ybenpan! Masih ada cakrawala panjang di depan untuk agen multi-putaran :)
Cognition
Cognition7 Mei 2025
Magang penelitian kami menyajikan: Kevin-32B = K(ernel D)evin Ini adalah model terbuka pertama yang dilatih menggunakan RL untuk menulis kernel CUDA. Kami mengimplementasikan RL multi-putaran menggunakan GRPO (berdasarkan QwQ-32B) pada kumpulan data KernelBench. Ini mengungguli model penalaran teratas (o3 & o4-mini)! 🧵
5,83K