Thực tập sinh nghiên cứu của chúng tôi trình bày: Kevin-32B = K(ernel D)evin Đây là mô hình mở đầu tiên được đào tạo bằng RL để viết nhân CUDA. Chúng tôi đã triển khai RL nhiều lượt bằng cách sử dụng GRPO (dựa trên QwQ-32B) trên bộ dữ liệu KernelBench. Nó vượt trội hơn các mô hình lý luận hàng đầu (o3 & o4-mini)! 🧵
316,13K