Våre forskningspraktikanter presenterer: Kevin-32B = K(ernel D)evin Det er den første åpne modellen som er trent ved hjelp av RL for å skrive CUDA-kjerner. Vi implementerte multi-turn RL ved hjelp av GRPO (basert på QwQ-32B) på KernelBench-datasettet. Den overgår de beste resonneringsmodellene (o3 og o4-mini)! 🧵
316,07K