一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Bonk 生态迷因币展现强韧势头

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

Solana 新代币发射平台 Boop.Fun 风头正劲

BOOP+3.3%

Boopa+3.09%

PORK+20.25%

Misha Laskin

@reflection_ai 联合创始人兼首席执行官。上一篇：特约研究科学家 @DeepMind. 双子座 RL 团队。

Misha Laskin7月16日 23:08

工程师花费70%的时间在理解代码上，而不是编写代码。这就是我们在@reflection_ai构建Asimov的原因。这是为团队和组织打造的最佳代码研究代理。

281.03K

Misha Laskin 已转发

Quentin Anthony7月12日 16:21

我曾是这项研究中的16名开发者之一。我想谈谈我对开发者减速的原因和缓解策略的看法。我想用一个"为什么要听你说？"的引子来说明，我在分配给我的问题上经历了-38%的AI加速。我认为透明度有助于社区。

1.72M

Misha Laskin7月10日 04:48

强化学习研究中最大的一个问题一直是——你在什么环境中进行训练？过去是视频（Atari）和棋盘（围棋/国际象棋）游戏。但现在强化学习与大型语言模型（LLMs）结合后，只有一个环境是重要的。那就是你的产品。

Kevin Lu7月10日 00:01

为什么你应该停止从事强化学习研究，而是专注于产品 // 解锁人工智能大规模转变的技术是互联网，而不是变压器我认为大家都知道数据是人工智能中最重要的东西，而且研究人员选择不去研究它……在可扩展的方式上，研究数据意味着什么？互联网提供了丰富的、丰富的数据来源，这些数据多样，提供了自然的课程，代表了人们真正关心的能力，并且是一种经济上可行的技术，可以大规模部署——它成为了下一个标记预测的完美补充，并且是人工智能起飞的原始汤。没有变压器，任何数量的方法都可能起飞，我们可能会有CNN或状态空间模型达到GPT-4.5的水平。但自从GPT-4以来，基础模型并没有显著改善。推理模型在狭窄领域表现出色，但并没有像2023年3月的GPT-4那样取得巨大的飞跃（已经超过两年了……）我们在强化学习方面有一些伟大的东西，但我深深担心我们会重蹈过去的覆辙（2015-2020年期间的强化学习），进行无关紧要的强化学习研究。就像互联网是监督预训练的对偶，什么将是强化学习的对偶，能够带来像GPT-1到GPT-4那样的巨大进步？我认为这看起来像是研究-产品共同设计。

10.63K

Misha Laskin 已转发

Kasey Zhang7月4日 01:31

通过强化学习微调小模型以在垂直任务上超越基础模型是很容易的。我们正在开源 Osmosis-Apply-1.7B：一个小模型，它在合并代码（类似于 Cursor 的即时应用）方面比基础模型更出色。以下是下载和尝试该模型的链接！

111.35K