我们在KernelBench上使用o3-mini和一个进化示例带取得了一个未经验证的SOTA结果:声称实现了208/250的加速,包括3个Level 4(之前未触及)的加速。 如果有人能帮助审查优化后的KernelBench内核,我们将不胜感激。 感谢@anneouyang和斯坦福大学的@ScalingIntelLab同意审查这些内核。
wordgrammer
wordgrammer2025年4月30日
The good GPT wrappers have already been built, and ChatGPT struggled to write raw Cuda. Now is the time for monsters.
10.65K