Unsere Forschungspraktikantinnen und Praktikanten präsentieren: Kevin-32B = K(ernel D)evin Es ist das erste offene Modell, das mit RL zum Schreiben von CUDA-Kerneln trainiert wurde. Wir haben Multi-Turn-RL mit GRPO (basierend auf QwQ-32B) auf dem KernelBench-Datensatz implementiert. Es übertrifft die Top-Reasoning-Modelle (o3 & o4-mini)! 🧵
316,09K