Czym jest $CODEC Robotyka, operatorzy, gry? Wszystko powyższe i więcej. Wizja-język-działanie (VLA) Codec to model niezależny od frameworków, który umożliwia dziesiątki zastosowań dzięki swojej unikalnej zdolności do wizualizacji błędów w porównaniu do LLM. W ciągu ostatnich 12 miesięcy zauważyliśmy, że LLM działają głównie jako mechanizmy pętlowe, napędzane z góry określonymi danymi i wzorcami odpowiedzi. Ponieważ są zbudowane na podstawie mowy i tekstu, LLM mają ograniczoną zdolność do ewolucji poza okno kontekstu językowego, na którym są trenowane. Nie potrafią interpretować bodźców sensorycznych, takich jak mimika twarzy czy emocjonalne sygnały w czasie rzeczywistym, ponieważ ich rozumowanie jest związane z językiem, a nie percepcją. Większość agentów dzisiaj łączy oparte na transformatorach LLM z wizualnymi enkoderami. „Widzą” interfejs poprzez zrzuty ekranu, interpretują to, co jest na ekranie, i generują sekwencje działań, kliknięć, naciśnięć klawiszy, przewijania, aby wykonać instrukcje i zrealizować zadania. Dlatego AI jeszcze nie zastąpiło dużych kategorii zawodów: LLM widzą zrzuty ekranu, a nie piksele. Nie rozumieją dynamicznej wizualnej semantyki otoczenia, tylko to, co jest czytelne przez statyczne ramki. Ich typowy przepływ pracy jest powtarzalny: uchwycenie zrzutu ekranu, rozumowanie na temat następnego działania, jego wykonanie, a następnie uchwycenie kolejnej ramki i powtórzenie. Ta pętla percepcji-myślenia trwa, aż zadanie zostanie zakończone lub agent zawiedzie. Aby naprawdę uogólnić, AI musi postrzegać swoje otoczenie, rozumować o swoim stanie i działać odpowiednio, aby osiągnąć cele, a nie tylko interpretować migawki. Mamy już makra, boty RPA i skrypty automatyzacji, ale są one słabe i niestabilne. Niewielka zmiana piksela lub układu przerywa przepływ i wymaga ręcznego łatania. Nie potrafią dostosować się, gdy coś zmienia się w przepływie pracy. To jest wąskie gardło. Wizja-Język-Działanie (VLA) Agenci VLA Codec działają na intuicyjnej, ale potężnej pętli: postrzegaj, myśl, działaj. Zamiast po prostu wypuszczać tekst jak większość LLM, ci agenci widzą swoje otoczenie, decydują, co zrobić, a następnie wykonują. Wszystko to jest zapakowane w jeden zintegrowany proces, który można wizualizować w trzech podstawowych warstwach: Wizja Agent najpierw postrzega swoje otoczenie poprzez wizję. Dla agenta Operatora na komputerze oznacza to uchwycenie zrzutu ekranu lub wizualnego wejścia aktualnego stanu (np. okno aplikacji lub pole tekstowe). Wizualny komponent modelu VLA interpretuje te dane, odczytując tekst na ekranie i rozpoznając elementy interfejsu lub obiekty. To są oczy agenta. Język Następnie przychodzi myślenie. Biorąc pod uwagę kontekst wizualny (i wszelkie instrukcje lub cele), model analizuje, jakie działanie jest wymagane. Zasadniczo AI „myśli” o odpowiedniej reakcji, tak jak zrobiłby to człowiek. Architektura VLA łączy wizję i język wewnętrznie, więc agent może na przykład zrozumieć, że okno dialogowe pyta o odpowiedź tak/nie. Następnie zdecyduje o właściwym działaniu (np. kliknięcie „OK”) w oparciu o cel lub podpowiedź. Działa jako mózg agenta, mapując postrzegane dane wejściowe na działanie. Działanie Na koniec agent działa, wydając polecenie kontrolne do otoczenia. Zamiast tekstu, model VLA generuje działanie (takie jak kliknięcie myszą, naciśnięcie klawisza lub wywołanie API), które bezpośrednio oddziałuje z systemem. W przykładzie dialogowym agent wykona kliknięcie na przycisku „OK”. To zamyka pętlę: po działaniu agent może wizualnie sprawdzić wynik i kontynuować cykl postrzegania-myślenia-działania. Działania są kluczowym rozdzielnikiem, który przekształca je z okien czatu w rzeczywistych operatorów. Przykłady zastosowań Jak wspomniałem, dzięki architekturze Codec jest agnostyczny narracyjnie. Tak jak LLM nie są ograniczone tym, jakie tekstowe wyjścia mogą produkować, tak VLA nie są ograniczone tym, jakie zadania mogą wykonać. Robotyka Zamiast polegać na starych skryptach lub niedoskonałej automatyzacji, agenci VLA przyjmują wizualne dane wejściowe (strumień z kamery lub czujniki), przekazują je przez model językowy do planowania, a następnie generują rzeczywiste polecenia kontrolne do poruszania się lub interakcji ze światem. W zasadzie robot widzi, co ma przed sobą, przetwarza instrukcje takie jak „przesuń puszkę Pepsi obok pomarańczy”, ustala, gdzie wszystko jest, jak się poruszać, nie przewracając niczego, i robi to bez potrzeby twardego kodowania. To jest ta sama klasa systemu, co RT-2 Google’a lub PaLM-E. Duże modele, które łączą wizję i język, aby tworzyć działania w rzeczywistym świecie. Praca VLA CogAct to dobry przykład, robot skanuje zagraconą stół, otrzymuje naturalną podpowiedź i wykonuje pełną pętlę: identyfikacja obiektu, planowanie trasy, wykonanie ruchu. Operatorzy W środowisku desktopowym i internetowym agenci VLA zasadniczo działają jak cyfrowi pracownicy. „Widzą” ekran poprzez zrzut ekranu lub strumień na żywo, przetwarzają to przez warstwę rozumowania opartą na modelu językowym, aby zrozumieć zarówno interfejs użytkownika, jak i podpowiedź zadania, a następnie wykonują działania z rzeczywistą kontrolą myszki i klawiatury, jak człowiek. Ta pełna pętla, postrzegaj, myśl, działaj, działa nieprzerwanie. Więc agent nie tylko reaguje raz, aktywnie nawigując po interfejsie, obsługując wieloetapowe przepływy bez potrzeby jakichkolwiek twardo zakodowanych skryptów. Architektura to mieszanka wizji w stylu OCR do odczytu tekstu/przycisków/ikon, rozumowania semantycznego do podjęcia decyzji, co zrobić, oraz warstwy kontrolnej, która może klikać, przewijać, pisać itd. Gdzie to staje się naprawdę interesujące, to w obsłudze błędów. Ci agenci mogą reflektować po działaniach i ponownie planować, jeśli coś nie idzie zgodnie z oczekiwaniami. W przeciwieństwie do skryptów RPA, które łamią się, jeśli interfejs użytkownika zmienia się nieznacznie, na przykład przycisk zmienia położenie lub etykieta zostaje zmieniona, agent VLA może dostosować się do nowego układu, korzystając z wizualnych wskazówek i zrozumienia języka. Czyni to znacznie bardziej odpornym na automatyzację w rzeczywistym świecie, gdzie interfejsy ciągle się zmieniają. Coś, z czym osobiście miałem trudności, gdy kodowałem własne boty badawcze za pomocą narzędzi takich jak playwright. Gry Gry to jeden z najjaśniejszych przypadków użycia, w których agenci VLA mogą błyszczeć, myśl o nich mniej jak o botach, a bardziej jak o immersyjnych graczach AI. Cały przepływ jest taki sam, agent widzi ekran gry (klatki, menu, podpowiedzi tekstowe), rozumuje, co powinien zrobić, a następnie gra, używając wejść z myszki, klawiatury lub kontrolera. Nie koncentruje się na brutalnej sile, to AI uczy się grać jak człowiek. Percepcja + myślenie + kontrola, wszystko połączone. Projekt SIMA DeepMind odblokował to, łącząc model wizji-języka z warstwą predykcyjną i wprowadzając go do gier takich jak No Man’s Sky i Minecraft. Obserwując ekran i wykonując instrukcje, agent mógł zrealizować abstrakcyjne zadania, takie jak „zbuduj ognisko”, łącząc odpowiednie kroki, zbierając drewno, znajdując zapałki i korzystając z ekwipunku. I nie był ograniczony tylko do jednej gry. Przenosił tę wiedzę między różnymi środowiskami. Agenci gier VLA nie są zamknięci w jednym zestawie reguł. Ten sam agent może dostosować się do zupełnie różnych mechanik, tylko na podstawie wizji i językowego ugruntowania. A ponieważ jest zbudowany na infrastrukturze LLM, może wyjaśnić, co robi, podążać za instrukcjami w naturalnym języku w trakcie gry lub współpracować z graczami w czasie rzeczywistym. Nie jesteśmy daleko od posiadania AI towarzyszy, którzy dostosowują się do twojego stylu gry i personalizacji, wszystko dzięki Codec.
9,19K