什么是 $CODEC 机器人、操作员、游戏? 以上所有以及更多。 Codec 的视觉-语言-行动 (VLA) 是一个框架无关的模型,由于其独特的能力,可以将错误可视化,因此允许数十种用例。 在过去的 12 个月中,我们看到 LLM 主要作为循环机制运作,由预定义的数据和响应模式驱动。 由于它们是基于语音和文本构建的,LLM 在超越其训练的语言上下文窗口方面能力有限。它们无法解释感官输入,如面部表情或实时情感线索,因为它们的推理受限于语言,而非感知。 如今大多数代理结合了基于变换器的 LLM 和视觉编码器。它们通过截图“看到”界面,解释屏幕上的内容,并生成一系列动作、点击、击键、滚动以遵循指令并完成任务。 这就是为什么 AI 还没有取代大类别工作的原因:LLM 看到的是截图,而不是像素。它们无法理解环境的动态视觉语义,只能理解通过静态帧可读的内容。 它们的典型工作流程是重复的:捕获截图,推理下一步动作,执行,然后捕获另一帧并重复。这个感知-思考循环持续进行,直到任务完成或代理失败。 要真正实现泛化,AI 必须感知其环境,推理其状态,并采取适当的行动以实现目标,而不仅仅是解释快照。 我们已经有宏、RPA 机器人和自动化脚本,但它们很弱且不稳定。轻微的像素偏移或布局变化会打破流程并需要手动修补。当工作流程中的某些内容发生变化时,它们无法适应。这就是瓶颈。 视觉-语言-行动 (VLA) Codec 的 VLA 代理在一个直观但强大的循环中运行:感知、思考、行动。与大多数 LLM 仅仅输出文本不同,这些代理能够看到其环境,决定该做什么,然后执行。所有这些都打包成一个统一的管道,可以分为三个核心层次: 视觉 代理首先通过视觉感知其环境。对于桌面操作员代理,这意味着捕获当前状态的截图或视觉输入(例如应用窗口或文本框)。VLA 模型的视觉组件解释此输入,读取屏幕上的文本并识别界面元素或对象。也就是代理的眼睛。 语言 然后是思考。根据视觉上下文(以及任何指令或目标),模型分析所需的动作。基本上,AI “思考” 适当的响应,就像人类一样。VLA 架构在内部合并了视觉和语言,因此代理可以理解弹出对话框在询问是/否问题。然后,它将根据目标或提示决定正确的行动(例如,点击“确定”)。作为代理的大脑,将感知到的输入映射到一个动作。 行动 最后,代理通过向环境输出控制命令来行动。VLA 模型生成的不是文本,而是直接与系统交互的动作(例如鼠标点击、击键或 API 调用)。在对话框示例中,代理将执行对“确定”按钮的点击。这完成了循环:在行动后,代理可以视觉检查结果并继续感知-思考-行动循环。行动是将它们从聊天框转变为实际操作员的关键分隔符。 用例 正如我提到的,由于架构的原因,Codec 是叙事无关的。正如 LLM 不受其可以生成的文本输出的限制,VLA 也不受其可以完成的任务的限制。 机器人 VLA 代理不再依赖旧脚本或不完美的自动化,而是接收视觉输入(摄像头视频或传感器),将其传递给语言模型进行规划,然后输出实际的控制命令以移动或与世界互动。 基本上,机器人看到它面前的东西,处理指令,如“将百事可乐罐移动到橙子旁边”,弄清楚一切的位置,如何移动而不碰倒任何东西,并在不需要硬编码的情况下完成。 这与谷歌的 RT-2 或 PaLM-E 属于同一类系统。大型模型将视觉和语言结合起来以创建现实世界的动作。CogAct 的 VLA 工作是一个很好的例子,机器人扫描一个杂乱的桌子,得到一个自然提示,并运行一个完整的循环:对象 ID、路径规划、运动执行。 操作员 在桌面和网络环境中,VLA 代理基本上像数字工人一样运作。它们通过截图或实时视频“看到”屏幕,将其通过基于语言模型的推理层运行,以理解 UI 和任务提示,然后像人类一样执行真实的鼠标和键盘控制。 这个完整的循环,感知、思考、行动持续进行。因此,代理不仅仅是一次反应,而是积极导航界面,处理多个步骤的流程,而无需任何硬编码脚本。该架构是 OCR 风格的视觉读取文本/按钮/图标,语义推理决定该做什么,以及可以点击、滚动、输入等的控制层的混合。 这在错误处理方面变得非常有趣。这些代理可以在行动后反思,并在某些事情未按预期进行时重新规划。与 RPA 脚本不同,后者在 UI 轻微变化时会中断,例如按钮位置移动或标签重命名,VLA 代理可以使用视觉线索和语言理解适应新布局。这使其在界面不断变化的现实世界自动化中更加稳健。 这是我在通过像 playwright 这样的工具编写自己的研究机器人时个人遇到的困难。 游戏 游戏是 VLA 代理可以大放异彩的最明显用例之一,想象它们更像沉浸式 AI 玩家,而不是机器人。整个流程是相同的,代理看到游戏屏幕(帧、菜单、文本提示),推理它应该做什么,然后使用鼠标、键盘或控制器输入进行游戏。 它并不专注于蛮力,而是 AI 学习如何像人类一样玩游戏。感知 + 思考 + 控制,所有这些都结合在一起。DeepMind 的 SIMA 项目通过将视觉-语言模型与预测层结合并将其应用于《无人深空》和《我的世界》等游戏,解锁了这一点。代理通过仅仅观察屏幕并遵循指令,可以完成抽象任务,如“建造篝火”,通过串联正确的步骤,收集木材、找到火柴并使用库存。它也不仅限于一个游戏。它在不同环境之间转移了知识。 VLA 游戏代理并不被锁定在一个规则集内。同一个代理可以根据视觉和语言基础适应完全不同的机制。由于它是基于 LLM 基础设施构建的,它可以解释自己在做什么,在游戏中遵循自然语言指令,或与玩家实时协作。 我们离拥有能够适应你的游戏风格和个性化的 AI 队友并不遥远,这一切都要归功于 Codec。
9.18K