一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

什么是 $CODEC 机器人、操作员、游戏？以上所有以及更多。 Codec 的视觉-语言-行动 (VLA) 是一个框架无关的模型，由于其独特的能力，可以将错误可视化，因此允许数十种用例。在过去的 12 个月中，我们看到 LLM 主要作为循环机制运作，由预定义的数据和响应模式驱动。由于它们是基于语音和文本构建的，LLM 在超越其训练的语言上下文窗口方面能力有限。它们无法解释感官输入，如面部表情或实时情感线索，因为它们的推理受限于语言，而非感知。如今大多数代理结合了基于变换器的 LLM 和视觉编码器。它们通过截图“看到”界面，解释屏幕上的内容，并生成一系列动作、点击、击键、滚动以遵循指令并完成任务。这就是为什么 AI 还没有取代大类别工作的原因：LLM 看到的是截图，而不是像素。它们无法理解环境的动态视觉语义，只能理解通过静态帧可读的内容。它们的典型工作流程是重复的：捕获截图，推理下一步动作，执行，然后捕获另一帧并重复。这个感知-思考循环持续进行，直到任务完成或代理失败。要真正实现泛化，AI 必须感知其环境，推理其状态，并采取适当的行动以实现目标，而不仅仅是解释快照。我们已经有宏、RPA 机器人和自动化脚本，但它们很弱且不稳定。轻微的像素偏移或布局变化会打破流程并需要手动修补。当工作流程中的某些内容发生变化时，它们无法适应。这就是瓶颈。视觉-语言-行动 (VLA) Codec 的 VLA 代理在一个直观但强大的循环中运行：感知、思考、行动。与大多数 LLM 仅仅输出文本不同，这些代理能够看到其环境，决定该做什么，然后执行。所有这些都打包成一个统一的管道，可以分为三个核心层次：视觉代理首先通过视觉感知其环境。对于桌面操作员代理，这意味着捕获当前状态的截图或视觉输入（例如应用窗口或文本框）。VLA 模型的视觉组件解释此输入，读取屏幕上的文本并识别界面元素或对象。也就是代理的眼睛。语言然后是思考。根据视觉上下文（以及任何指令或目标），模型分析所需的动作。基本上，AI “思考” 适当的响应，就像人类一样。VLA 架构在内部合并了视觉和语言，因此代理可以理解弹出对话框在询问是/否问题。然后，它将根据目标或提示决定正确的行动（例如，点击“确定”）。作为代理的大脑，将感知到的输入映射到一个动作。行动最后，代理通过向环境输出控制命令来行动。VLA 模型生成的不是文本，而是直接与系统交互的动作（例如鼠标点击、击键或 API 调用）。在对话框示例中，代理将执行对“确定”按钮的点击。这完成了循环：在行动后，代理可以视觉检查结果并继续感知-思考-行动循环。行动是将它们从聊天框转变为实际操作员的关键分隔符。用例正如我提到的，由于架构的原因，Codec 是叙事无关的。正如 LLM 不受其可以生成的文本输出的限制，VLA 也不受其可以完成的任务的限制。机器人 VLA 代理不再依赖旧脚本或不完美的自动化，而是接收视觉输入（摄像头视频或传感器），将其传递给语言模型进行规划，然后输出实际的控制命令以移动或与世界互动。基本上，机器人看到它面前的东西，处理指令，如“将百事可乐罐移动到橙子旁边”，弄清楚一切的位置，如何移动而不碰倒任何东西，并在不需要硬编码的情况下完成。这与谷歌的 RT-2 或 PaLM-E 属于同一类系统。大型模型将视觉和语言结合起来以创建现实世界的动作。CogAct 的 VLA 工作是一个很好的例子，机器人扫描一个杂乱的桌子，得到一个自然提示，并运行一个完整的循环：对象 ID、路径规划、运动执行。操作员在桌面和网络环境中，VLA 代理基本上像数字工人一样运作。它们通过截图或实时视频“看到”屏幕，将其通过基于语言模型的推理层运行，以理解 UI 和任务提示，然后像人类一样执行真实的鼠标和键盘控制。这个完整的循环，感知、思考、行动持续进行。因此，代理不仅仅是一次反应，而是积极导航界面，处理多个步骤的流程，而无需任何硬编码脚本。该架构是 OCR 风格的视觉读取文本/按钮/图标，语义推理决定该做什么，以及可以点击、滚动、输入等的控制层的混合。这在错误处理方面变得非常有趣。这些代理可以在行动后反思，并在某些事情未按预期进行时重新规划。与 RPA 脚本不同，后者在 UI 轻微变化时会中断，例如按钮位置移动或标签重命名，VLA 代理可以使用视觉线索和语言理解适应新布局。这使其在界面不断变化的现实世界自动化中更加稳健。这是我在通过像 playwright 这样的工具编写自己的研究机器人时个人遇到的困难。游戏游戏是 VLA 代理可以大放异彩的最明显用例之一，想象它们更像沉浸式 AI 玩家，而不是机器人。整个流程是相同的，代理看到游戏屏幕（帧、菜单、文本提示），推理它应该做什么，然后使用鼠标、键盘或控制器输入进行游戏。它并不专注于蛮力，而是 AI 学习如何像人类一样玩游戏。感知 + 思考 + 控制，所有这些都结合在一起。DeepMind 的 SIMA 项目通过将视觉-语言模型与预测层结合并将其应用于《无人深空》和《我的世界》等游戏，解锁了这一点。代理通过仅仅观察屏幕并遵循指令，可以完成抽象任务，如“建造篝火”，通过串联正确的步骤，收集木材、找到火柴并使用库存。它也不仅限于一个游戏。它在不同环境之间转移了知识。 VLA 游戏代理并不被锁定在一个规则集内。同一个代理可以根据视觉和语言基础适应完全不同的机制。由于它是基于 LLM 基础设施构建的，它可以解释自己在做什么，在游戏中遵循自然语言指令，或与玩家实时协作。我们离拥有能够适应你的游戏风格和个性化的 AI 队友并不遥远，这一切都要归功于 Codec。

9.18K