Что такое $CODEC Робототехника, Операторы, Игры? Все вышеперечисленное и больше. Видение-язык-действие (VLA) Codec — это модель, независимая от фреймворка, позволяющая использовать десятки вариантов применения благодаря своей уникальной способности визуализировать ошибки по сравнению с LLM. За последние 12 месяцев мы увидели, что LLM в основном функционируют как механизмы циклического выполнения, управляемые предопределенными данными и шаблонами ответов. Поскольку они построены на речи и тексте, LLM имеют ограниченные возможности эволюционировать за пределами окна лингвистического контекста, на котором они обучены. Они не могут интерпретировать сенсорные данные, такие как выражения лиц или эмоциональные сигналы в реальном времени, так как их рассуждения привязаны к языку, а не к восприятию. Большинство агентов сегодня комбинируют LLM на основе трансформеров с визуальными кодировщиками. Они "видят" интерфейс через скриншоты, интерпретируют то, что на экране, и генерируют последовательности действий, кликов, нажатий клавиш, прокруток, чтобы следовать инструкциям и выполнять задачи. Вот почему ИИ еще не заменил большие категории работ: LLM видят скриншоты, а не пиксели. Они не понимают динамическую визуальную семантику окружающей среды, только то, что читается через статические кадры. Их типичный рабочий процесс повторяется: захватить скриншот, рассуждать о следующем действии, выполнить его, затем захватить другой кадр и повторить. Этот цикл восприятия-размышления продолжается до тех пор, пока задача не будет выполнена или агент не потерпит неудачу. Чтобы действительно обобщить, ИИ должен воспринимать свою среду, рассуждать о своем состоянии и действовать соответствующим образом для достижения целей, а не просто интерпретировать снимки. У нас уже есть макросы, RPA-боты и скрипты автоматизации, но они слабые и нестабильные. Небольшое смещение пикселей или изменение макета нарушает поток и требует ручного исправления. Они не могут адаптироваться, когда что-то меняется в рабочем процессе. Это и есть узкое место. Видение-язык-действие (VLA) Агенты VLA Codec работают по интуитивно понятному, но мощному циклу: воспринимать, думать, действовать. Вместо того чтобы просто выдавать текст, как большинство LLM, эти агенты видят свою среду, решают, что делать, а затем выполняют действия. Все это упаковано в один унифицированный конвейер, который можно визуализировать в три основных слоя: Видение Агент сначала воспринимает свою среду через зрение. Для настольного оператора это означает захват скриншота или визуального ввода текущего состояния (например, окно приложения или текстовое поле). Компонент видения модели VLA интерпретирует этот ввод, считывая текст на экране и распознавая элементы интерфейса или объекты. То есть глаза агента. Язык Затем приходит размышление. Учитывая визуальный контекст (и любые инструкции или цели), модель анализирует, какое действие требуется. По сути, ИИ "думает" о соответствующем ответе, как это сделал бы человек. Архитектура VLA объединяет видение и язык внутри, так что агент может, например, понять, что всплывающее диалоговое окно задает вопрос с ответом "да/нет". Затем он решит, какое действие выполнить (например, нажать "ОК") на основе цели или подсказки. Это служит мозгом агента, сопоставляя воспринимаемые входные данные с действием. Действие Наконец, агент действует, выдавая управляющую команду в окружающую среду. Вместо текста модель VLA генерирует действие (например, клик мышью, нажатие клавиши или вызов API), которое напрямую взаимодействует с системой. В примере с диалогом агент выполнит клик по кнопке "ОК". Это завершает цикл: после действия агент может визуально проверить результат и продолжить цикл восприятия-размышления-действия. Действия являются ключевым разделителем, который превращает их из чат-окон в настоящих операторов. Сценарии использования Как я уже упоминал, благодаря архитектуре Codec является независимым от нарратива. Так же, как LLM не ограничены тем, какие текстовые выходные данные они могут производить, VLA не ограничены тем, какие задачи они могут выполнять. Робототехника Вместо того чтобы полагаться на старые скрипты или несовершенную автоматизацию, агенты VLA принимают визуальный ввод (видеопоток или датчики), пропускают его через языковую модель для планирования, а затем выводят реальные управляющие команды для перемещения или взаимодействия с миром. По сути, робот видит то, что перед ним, обрабатывает инструкции, такие как "переместить банку Pepsi рядом с апельсином", определяет, где что находится, как двигаться, не сбивая ничего, и делает это без необходимости жесткого кодирования. Это та же категория системы, что и RT-2 или PaLM-E от Google. Большие модели, которые объединяют видение и язык для создания реальных действий. Работа CogAct с VLA является хорошим примером: робот сканирует загроможденный стол, получает естественную подсказку и выполняет полный цикл: идентификация объекта, планирование пути, выполнение движения. Операторы В настольной и веб-среде агенты VLA в основном функционируют как цифровые работники. Они "видят" экран через скриншот или живую трансляцию, пропускают это через слой рассуждений, построенный на языковой модели, чтобы понять как интерфейс, так и задачу, а затем выполняют действия с реальным управлением мышью и клавиатурой, как это сделал бы человек. Этот полный цикл восприятия, размышления, действия работает непрерывно. Таким образом, агент не просто реагирует один раз, он активно навигирует по интерфейсу, обрабатывая многоступенчатые потоки без необходимости в жестко закодированных скриптах. Архитектура представляет собой смесь OCR-стиля видения для считывания текста/кнопок/значков, семантического рассуждения для принятия решения о том, что делать, и управляющего слоя, который может кликать, прокручивать, печатать и т.д. Где это становится действительно интересным, так это в обработке ошибок. Эти агенты могут отражать действия и перепланировать, если что-то идет не так, как ожидалось. В отличие от RPA-скриптов, которые ломаются, если интерфейс немного изменяется, например, если кнопка смещается или метка переименовывается, агент VLA может адаптироваться к новому макету, используя визуальные подсказки и понимание языка. Это делает его гораздо более устойчивым для реальной автоматизации, где интерфейсы постоянно меняются. С чем я лично сталкивался, когда кодировал свои собственные исследовательские боты с помощью таких инструментов, как playwright. Игры Игры — один из самых очевидных сценариев использования, где агенты VLA могут проявить себя, думайте о них меньше как о ботах и больше как о погружающихся ИИ-игроках. Весь поток такой же: агент видит экран игры (кадры, меню, текстовые подсказки), размышляет о том, что ему нужно сделать, а затем играет, используя ввод мыши, клавиатуры или контроллера. Это не сосредоточено на грубой силе, это ИИ, который учится играть, как это сделал бы человек. Восприятие + размышление + контроль, все связано вместе. Проект SIMA от DeepMind разблокировал это, объединив модель видения-языка с предсказательным слоем и внедрив его в такие игры, как No Man’s Sky и Minecraft. Просто наблюдая за экраном и следуя инструкциям, агент мог выполнять абстрактные задачи, такие как "построить костер", связывая вместе правильные шаги, собирать дрова, находить спички и использовать инвентарь. И это не ограничивалось только одной игрой. Он перенес эти знания между разными средами. Игровые агенты VLA не привязаны к одному набору правил. Один и тот же агент может адаптироваться к совершенно разным механикам, просто основываясь на видении и языковом основании. И поскольку он построен на инфраструктуре LLM, он может объяснить, что он делает, следовать инструкциям на естественном языке в процессе игры или сотрудничать с игроками в реальном времени. Мы недалеко от того, чтобы иметь ИИ-товарищей, которые адаптируются к вашему стилю игры и персонализациям, благодаря Codec.
9,19K