热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我最好的猜测:
评分标准 + LLM 评审 - 将每个真实证明中的要点细分,并与模型输出进行对比。
我对他们如何使这一过程可扩展的猜测 - 之前并不是这样,人类必须仔细制作这些,可能是他们训练或做了某些事情,以为每个特定问题或其答案生成非常好的评分标准。

7月19日 15:50
除了结果本身,我对我们的方法感到兴奋:我们不是通过狭窄的、特定任务的方法达到这个能力水平,而是通过在通用强化学习和测试时计算扩展方面开辟新天地。
.@polynoamial @alexwei_ 如果我说对了就眨两次眼,如果我说错了就眨三次 - 在盲人被盲人引导之前 xD
21.26K
热门
排行
收藏