Một số công việc thực sự tuyệt vời từ @carlobaronio @pmmarsella @ybenpan! Vẫn còn một chặng đường dài phía trước cho các tác nhân đa lượt :)
Cognition
Cognition7 thg 5, 2025
Thực tập sinh nghiên cứu của chúng tôi trình bày: Kevin-32B = K(ernel D)evin Đây là mô hình mở đầu tiên được đào tạo bằng RL để viết nhân CUDA. Chúng tôi đã triển khai RL nhiều lượt bằng cách sử dụng GRPO (dựa trên QwQ-32B) trên bộ dữ liệu KernelBench. Nó vượt trội hơn các mô hình lý luận hàng đầu (o3 & o4-mini)! 🧵
5,86K