另一个 alpha 泄露。我们为 KernelBench 使用的相同技术。这是最简单形式的通用方法。 你只需要示例:获得一个好的结果或一个单一的改进,添加到上下文中,获得更多好的结果与改进的上下文,将这些添加到上下文中,等等…
Tooliense
Tooliense7月22日 11:19
最近,OpenAI 和 Google 在他们的新实验模型上达到了 IMO 金牌的水平。 但我们的团队仅凭 o4-mini-high 和我们的代理系统就达到了同样的水平。现在我们将其开源。 特别是我们在 USAMO 基准测试中取得了惊人的进步。基线几乎为 0,但我们的代理平均达到了 90%。 此外,我们还可以理论上证明最近的 arxiv 论文,只需提供关键的研究思路。
训练小模型真的没有意义……你最好找到理想的程序来喂给最大的机器。 如果你想要最佳的输出分布,你需要找到理想的输入分布,就像练习一样。 只要你有办法对输出进行排名,你就可以从零开始达到目标。 不过这些家伙的技术似乎过于复杂,实际上可以简单得多。
KernelBench的第一代在o3-mini上。我们称之为“自我提升”。
Lewis
Lewis2025年4月30日
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
3.15K