Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Що таке $CODEC
Робототехніка, Оператори, Геймінг?
Все перераховане вище і багато іншого.
Vision-language-action (VLA) від Codec є незалежною від фреймворку моделлю, що дозволяє використовувати десятки випадків завдяки своїй унікальній здатності візуалізувати помилки в порівнянні з LLM.
За останні 12 місяців ми побачили, що LLM функціонують переважно як циклічні механізми, керовані заздалегідь визначеними даними та шаблонами відповідей.
Оскільки вони побудовані на мові та тексті, LLM мають обмежену здатність еволюціонувати за вікно лінгвістичного контексту, на якому вони навчаються. Вони не можуть інтерпретувати сенсорну інформацію, таку як вираз обличчя або емоційні сигнали в реальному часі, оскільки їхні міркування пов'язані з мовою, а не зі сприйняттям.
Більшість агентів сьогодні поєднують ЛЛМ на основі трансформаторів з візуальними енкодерами. Вони «бачать» інтерфейс за допомогою скріншотів, інтерпретують те, що відображається на екрані, і генерують послідовності дій, кліків, натискань клавіш, прокручувань для виконання інструкцій і виконання завдань.
Ось чому ШІ досі не замінив великі категорії вакансій: LLM бачать скріншоти, а не пікселі. Вони не розуміють динамічної візуальної семантики середовища, а лише того, що читається через статичні кадри.
Їхній типовий робочий процес повторюється: зробіть знімок екрана, обміркуйте наступну дію, виконайте його, потім зробіть ще один кадр і повторіть. Цей цикл сприйняття і мислення триває до тих пір, поки завдання не буде виконано або агент не вийде з ладу.
Щоб по-справжньому узагальнити, ШІ повинен сприймати навколишнє середовище, міркувати про його стан і діяти належним чином для досягнення цілей, а не просто інтерпретувати знімки.
У нас вже є макроси, RPA боти та скрипти автоматизації, але вони слабкі та нестабільні. Невеликий зсув пікселя або зміна макета порушує потік і вимагає ручного виправлення. Вони не можуть адаптуватися, коли щось змінюється в робочому процесі. Ось і є вузьке місце.
Візія-Мова-Дія (VLA)
Агенти VLA Codec працюють за інтуїтивним, але потужним циклом: сприймати, думати, діяти. Замість того, щоб просто випльовувати текст, як більшість LLM, ці агенти бачать його оточення, вирішують, що робити, а потім виконують. Все це упаковано в одну уніфіковану воронку продажів, яку ви можете уявити на три основні рівні:
Зір
Агент спочатку сприймає навколишнє середовище за допомогою зору. Для оператора настільного комп'ютера це означає створення знімка екрана або візуального введення поточного стану (наприклад, вікна програми або текстового поля). Візуальний компонент моделі VLA інтерпретує цей вхід, зчитуючи текст на екрані та розпізнаючи елементи інтерфейсу або об'єкти. Він же очі агента.
Мова
Потім приходить думка. З огляду на візуальний контекст (і будь-які інструкції або цілі), модель аналізує, які дії потрібні. По суті, штучний інтелект «думає» про відповідну реакцію так само, як і людина. Архітектура VLA внутрішньо об'єднує бачення та мову, тому агент може, наприклад, зрозуміти, що спливаюче діалогове вікно ставить запитання «так/ні». Потім він прийме рішення про правильну дію (наприклад, натисне «ОК») на основі мети або підказки. Виконуючи роль мозку агента, відображаючи сприйняті вхідні дані на дію.
Дія
Нарешті, агент діє, виводячи в оточення команду управління. Замість тексту модель VLA генерує дію (наприклад, клацання мишею, натискання клавіші або виклик API), яка безпосередньо взаємодіє з системою. У діалоговому вікні агент виконає натискання на кнопку «ОК». Це замикає цикл: після дії агент може візуально перевірити результат і продовжити цикл сприйняття – мислення – дія. Дії є ключовим роздільником, який перетворює їх з чатів на реальних операторів.
Випадки використання
Як я вже згадував, через архітектуру Codec не залежить від наративу. Подібно до того, як LLM не обмежені тим, які текстові виходи вони можуть виробляти, VLA не обмежені тим, які завдання вони можуть виконати.
Робототехніка
Замість того, щоб покладатися на старі сценарії або недосконалу автоматизацію, агенти VLA приймають візуальний вхід (сигнал з камери або датчики), пропускають його через мовну модель для планування, а потім виводять реальні команди керування для переміщення або взаємодії зі світом.
По суті, робот бачить, що перед ним, обробляє інструкції на кшталт «перемістіть банку Pepsi поруч з апельсином», з'ясовує, де що знаходиться, як рухатися, нічого не перекинувши, і робить це без необхідності жорсткого кодування.
Це такий самий клас систем, як RT-2 або PaLM-E від Google. Великі моделі, які поєднують бачення та мову для створення реальних дій. Хорошим прикладом є робота VLA від CogAct, робот сканує захаращений стіл, отримує природну підказку та запускає повний цикл: ID об'єкта, планування шляху, виконання руху.
Операторів
У настільному та веб-середовищі агенти VLA в основному функціонують як цифрові працівники. Вони «бачать» екран через знімок екрана або пряму трансляцію, пропускають це через шар міркувань, побудований на мовній моделі, щоб зрозуміти як інтерфейс користувача, так і підказку завдання, а потім виконують дії за допомогою реального керування мишею та клавіатурою, як це робила б людина.
Цей повний цикл сприйняття, мислення, дії проходить безперервно. Таким чином, агент не просто реагує один раз, він активно переміщається по інтерфейсу, обробляючи кілька потоків кроків без необхідності будь-яких жорстко закодованих скриптів. Архітектура являє собою суміш бачення стилю OCR для читання тексту/кнопок/іконок, семантичних міркувань для прийняття рішення про те, що робити, і керуючого шару, який може натискати, прокручувати, вводити текст тощо.
Де це стає дійсно цікавим, так це в обробці помилок. Ці агенти можуть розмірковувати про дії та переплановувати, якщо щось піде не так, як очікувалося. На відміну від сценаріїв RPA, які ламаються, якщо інтерфейс користувача трохи змінюється, наприклад, зміщує позицію кнопки або перейменовується мітка, агент VLA може адаптуватися до нового макета, використовуючи візуальні підказки та розуміння мови. Робить його набагато стійкішим для автоматизації в реальному світі, де інтерфейси постійно змінюються.
Це те, з чим я особисто боровся, коли кодував власних наукових ботів за допомогою таких інструментів, як драматург.
Ігровий
Ігри є одним із найяскравіших випадків використання, коли агенти VLA можуть сяяти, сприймаючи їх менше як ботів, а більше як захоплюючих гравців зі штучним інтелектом. Весь потік однаковий, агент бачить екран гри (рамки, меню, текстові підказки), міркування про те, що він повинен робити, а потім грає, використовуючи введення миші, клавіатури або контролера.
Він не зосереджений на грубій силі, це штучний інтелект, який вчиться грати як людина. Сприйняття + мислення + контроль, все це пов'язано разом. Проект SIMA від DeepMind розкрив це, поєднавши модель мови бачення з прогностичним шаром, і впустив її в такі ігри, як No Man's Sky і Minecraft. Просто спостерігаючи за екраном і дотримуючись інструкцій, агент міг виконувати абстрактні завдання, такі як «розвести багаття», з'єднуючи правильні кроки, збирати дрова, знаходити сірники та використовувати інвентар. І не обмежувалася лише однією грою. Він передавав ці знання між різними середовищами.
Ігрові агенти VLA не обмежені одним набором правил. Один і той же агент може підлаштовуватися під абсолютно різні механіки, просто від зору до заземлення мови. А оскільки він побудований на інфраструктурі LLM, він може пояснювати, що він робить, слідувати інструкціям природної мови в середині гри або співпрацювати з гравцями в режимі реального часу.
Ми недалеко пішли від того, щоб мати товаришів по команді зі штучним інтелектом, які адаптуються до вашого стилю гри та персоналізації, і все це завдяки Codec.

9,18K
Найкращі
Рейтинг
Вибране