Wirklich tolle Arbeit von @carlobaronio @pmmarsella @ybenpan! Noch ein langer Horizont für Multiturn-Agenten :)
Cognition
Cognition7. Mai 2025
Unsere Forschungspraktikantinnen und Praktikanten präsentieren: Kevin-32B = K(ernel D)evin Es ist das erste offene Modell, das mit RL zum Schreiben von CUDA-Kerneln trainiert wurde. Wir haben Multi-Turn-RL mit GRPO (basierend auf QwQ-32B) auf dem KernelBench-Datensatz implementiert. Es übertrifft die Top-Reasoning-Modelle (o3 & o4-mini)! 🧵
5,83K