热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
另一个 alpha 泄露。我们为 KernelBench 使用的相同技术。这是最简单形式的通用方法。
你只需要示例:获得一个好的结果或一个单一的改进,添加到上下文中,获得更多好的结果与改进的上下文,将这些添加到上下文中,等等…


7月22日 11:19
最近,OpenAI 和 Google 在他们的新实验模型上达到了 IMO 金牌的水平。
但我们的团队仅凭 o4-mini-high 和我们的代理系统就达到了同样的水平。现在我们将其开源。
特别是我们在 USAMO 基准测试中取得了惊人的进步。基线几乎为 0,但我们的代理平均达到了 90%。
此外,我们还可以理论上证明最近的 arxiv 论文,只需提供关键的研究思路。

训练小模型真的没有意义……你最好找到理想的程序来喂给最大的机器。
如果你想要最佳的输出分布,你需要找到理想的输入分布,就像练习一样。
只要你有办法对输出进行排名,你就可以从零开始达到目标。
不过这些家伙的技术似乎过于复杂,实际上可以简单得多。
KernelBench的第一代在o3-mini上。我们称之为“自我提升”。


2025年4月30日
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched).
would be grateful for any help reviewing the optimized KernelBench kernels at .
thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.

3.15K
热门
排行
收藏