Просто зробіть собі послугу та прочитайте пояснення Тріссі про те, чому @codecopenflow є одним із найкращих варіантів для операторів штучного інтелекту OpenAI щойно випустила свого агента Operators, тому очевидно, що великі компанії також працюють над VLA Все ще високий ризик, але стратосфера є найгіршим дахом для цього
Trissy
Trissy18 лип., 16:10
Сьогодні OpenAI щойно підтвердила мою тезу про північну зірку щодо штучного інтелекту, випустивши свого оператора-агента. Не тільки це була моя керівна теза для $CODEC, але й усі інші інвестиції в штучний інтелект, які я робив, включно з тими, що були зроблені на початку року під час манії штучного інтелекту. Було багато дискусій з Codec щодо робототехніки, хоча ця вертикаль дуже скоро матиме свій власний наратив, основна причина, через яку я так оптимістично оцінював Codec з першого дня, полягає в тому, як його архітектура впливає на операторів-агентів. Люди все ще недооцінюють, яка частка ринку поставлена на карту, створюючи програмне забезпечення, яке працює автономно, перевершуючи людських працівників без необхідності постійних підказок або контролю. Я бачив багато порівнянь з $NUIT. По-перше, я хочу сказати, що я великий шанувальник того, що будує Nuit, і бажаю лише їхнього успіху. Якщо ви наберете "nuit" у мій телеграм, то побачите, що ще у квітні я сказав, що якби мені довелося тримати одну монету протягом кількох місяців, то це була б Nuit через мою операторську дисертацію. Nuit був найперспективнішим проектом оператора на папері, але після ретельного дослідження я виявив, що їхній архітектурі не вистачає глибини, необхідної для виправдання великих інвестицій або забезпечення моєї репутації. Маючи це на увазі, я вже усвідомлював архітектурні прогалини в існуючих командах операторів-агентів і активно шукав проект, який би їх вирішував. Незабаром після цього з'явилися Codec (дякуючи @0xdetweiler наполягаю, я дивлюся на них глибше), і ось різниця між ними: $CODEC проти $NUIT Архітектура Codec побудована на трьох рівнях; Машина, система та інтелект, які розділяють інфраструктуру, інтерфейс середовища та логіку штучного інтелекту. Кожен операторський агент у Codec працює у власній ізольованій віртуальній машині або контейнері, що забезпечує майже вбудовану продуктивність та ізоляцію несправностей. Така багаторівнева конструкція означає, що компоненти можуть масштабуватися або розвиватися незалежно без порушення системи. Архітектура Nuit йде іншим шляхом, будучи більш монолітною. Їхній стек обертається навколо спеціалізованого агента веб-браузера, який поєднує в собі парсинг, міркування штучного інтелекту та дії. Це означає, що вони глибоко аналізують веб-сторінки в структуровані дані для споживання штучним інтелектом і покладаються на хмарну обробку для важких завдань штучного інтелекту. Підхід Codec, який полягає у вбудовуванні легкої моделі Vision-Language-Action (VLA) у кожен агент, означає, що вона може працювати повністю локально. Що не вимагає постійного зворотного зв'язку з поверненням у хмару для отримання інструкцій, що дозволяє скоротити затримку та уникнути залежності від часу безвідмовної роботи та пропускної здатності. Агент Nuit обробляє завдання, спочатку перетворюючи веб-сторінки в семантичний формат, а потім використовуючи мозок LLM, щоб з'ясувати, що робити, що з часом покращується завдяки навчанню з підкріпленням. Хоча цей процес ефективний для веб-автоматизації, він залежить від важкої обробки штучного інтелекту на стороні хмари та попередньо визначеної структури сторінок. Локальний інтелект пристрою Codec означає, що рішення приймаються ближче до даних, зменшуючи накладні витрати та роблячи систему більш стабільною до несподіваних змін (без крихких сценаріїв або припущень DOM). Оператори кодека слідують безперервному циклу сприйняття-мислення-дія. Машинний рівень передає потокову передачу навколишнього середовища (наприклад, живий додаток або канал робота) на рівень інтелекту через оптимізовані канали системного рівня, надаючи штучному інтелекту «очі» на поточний стан. Потім модель VLA агента інтерпретує візуальні ефекти та інструкції разом, щоб прийняти рішення про дію, яку системний рівень виконує за допомогою подій клавіатури/миші або керування роботом. Цей інтегрований цикл означає, що він адаптується до подій у реальному часі, навіть якщо інтерфейс користувача зміниться, ви не перервете потік. Щоб провести більш просту аналогію, подумайте про операторів Codec як про самодостатнього працівника, який пристосовується до сюрпризів на роботі. Агент Nuit схожий на співробітника, якому потрібно зробити паузу, описати ситуацію керівнику по телефону і дочекатися вказівок. Не заглиблюючись у технічну кролячу нору, це повинно дати вам загальне уявлення про те, чому я обрав Codec як основну ставку на операторів. Так, Nuit має підтримку від YC, складеної команди та github рівня S. Хоча архітектура Codec була побудована з урахуванням горизонтального масштабування, що означає, що ви можете розгортати тисячі агентів паралельно без спільного використання пам'яті або контексту виконання між агентами. Команда Codec — це не звичайні розробники. Їхня архітектура VLA відкриває безліч варіантів використання, що було неможливо з попередніми моделями агентів через бачення через пікселі, а не скріншоти. Я міг би продовжувати, але я збережу це для майбутніх постів.
1,91K