DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Ce este $CODEC Robotică, operatori, jocuri? Toate cele de mai sus și multe altele. Vision-language-action (VLA) al codecului este un model agnostic de framework, permițând zeci de cazuri de utilizare datorită capacității sale unice de a vizualiza erorile în comparație cu LLM-urile. În ultimele 12 luni, am văzut că LLM-urile funcționează în primul rând ca mecanisme de buclă, conduse de date predefinite și modele de răspuns. Deoarece sunt construite pe vorbire și text, LLM-urile au o capacitate limitată de a evolua dincolo de fereastra contextului lingvistic pe care sunt instruite. Ei nu pot interpreta intrările senzoriale, cum ar fi expresiile faciale sau indiciile emoționale în timp real, deoarece raționamentul lor este legat de limbaj, nu de percepție. Majoritatea agenților de astăzi combină LLM-uri bazate pe transformatoare cu codificatoare vizuale. Ei "văd" interfața prin capturi de ecran, interpretează ceea ce este pe ecran și generează secvențe de acțiuni, clicuri, apăsări de taste, derulări pentru a urma instrucțiuni și a finaliza sarcini. Acesta este motivul pentru care AI nu a înlocuit încă categorii mari de locuri de muncă: LLM-urile văd capturi de ecran, nu pixeli. Ei nu înțeleg semantica vizuală dinamică a mediului, ci doar ceea ce este lizibil prin cadre statice. Fluxul lor de lucru tipic este repetitiv: capturați o captură de ecran, motivați următoarea acțiune, executați-o, apoi capturați un alt cadru și repetați. Această buclă de percepție-gândire continuă până când sarcina este finalizată sau agentul eșuează. Pentru a generaliza cu adevărat, AI trebuie să-și perceapă mediul, să raționeze despre starea sa și să acționeze în mod corespunzător pentru a atinge obiectivele, nu doar să interpreteze instantanee. Avem deja macrocomenzi, roboți RPA și scripturi de automatizare, dar sunt slabe și instabile. O ușoară schimbare a pixelilor sau a aspectului întrerupe fluxul și necesită patch-uri manuale. Nu se pot adapta atunci când se schimbă ceva în fluxul de lucru. Acesta este blocajul. Viziune-Limbaj-Acțiune (VLA) Agenții VLA ai Codecului rulează pe o buclă intuitivă, dar puternică: percepeți, gândiți, acționați. În loc să scuipe text ca majoritatea LLM-urilor, acești agenți văd mediul său, decid ce să facă și apoi execută. Totul este împachetat într-o singură conductă unificată, pe care o puteți vizualiza în trei straturi de bază: Viziune Agentul își percepe mai întâi mediul prin vedere. Pentru un agent Operator desktop, aceasta înseamnă capturarea unei capturi de ecran sau a unei intrări vizuale a stării curente (de exemplu, o fereastră sau o casetă de text a aplicației). Componenta de viziune a modelului VLA interpretează această intrare, citind textul pe ecran și recunoscând elemente sau obiecte de interfață. Aka ochii agentului. Limbă Apoi vine gândirea. Având în vedere contextul vizual (și orice instrucțiuni sau obiective), modelul analizează ce acțiune este necesară. În esență, AI "se gândește" la răspunsul adecvat la fel ca o persoană. Arhitectura VLA îmbină viziunea și limbajul intern, astfel încât agentul poate, de exemplu, să înțeleagă că un dialog pop-up pune o întrebare da/nu. Apoi va decide asupra acțiunii corecte (de exemplu, faceți clic pe "OK") în funcție de obiectiv sau solicitare. Servind ca creier al agentului, mapând intrările percepute într-o acțiune. Acțiune În cele din urmă, agentul acționează prin emiterea unei comenzi de control către mediu. În loc de text, modelul VLA generează o acțiune (cum ar fi un clic de mouse, o apăsare de tastă sau un apel API) care interacționează direct cu sistemul. În exemplul de dialog, agentul ar executa clic pe butonul "OK". Acest lucru închide bucla: după ce acționează, agentul poate verifica vizual rezultatul și poate continua ciclul de percepție-gândire-acțiune. Acțiunile sunt separatorul cheie care îi transformă din casete de chat în operatori reali. Cazuri de utilizare După cum am menționat, datorită arhitecturii, Codec este agnostic narativ. La fel cum LLM-urile nu sunt limitate de rezultatele textuale pe care le pot produce, VLA nu sunt limitate de sarcinile pe care le pot finaliza. Robotica În loc să se bazeze pe scripturi vechi sau automatizări imperfecte, agenții VLA preiau intrări vizuale (flux de cameră sau senzori), le transmit printr-un model de limbaj pentru planificare, apoi emit comenzi de control reale pentru a se mișca sau a interacționa cu lumea. Practic, robotul vede ce este în fața lui, procesează instrucțiuni precum "mutați cutia Pepsi lângă portocală", își dă seama unde este totul, cum să se miște fără a răsturna nimic și o face fără a fi nevoie de codare. Aceasta este aceeași clasă de sistem ca RT-2 sau PaLM-E de la Google. Modele mari care îmbină viziunea și limbajul pentru a crea acțiuni din lumea reală. Munca VLA a CogAct este un bun exemplu, robotul scanează o masă aglomerată, primește un prompt natural și rulează o buclă completă: ID obiect, planificare a căii, execuție a mișcării. Operatorii În mediul desktop și web, agenții VLA funcționează practic ca lucrători digitali. Ei "văd" ecranul printr-o captură de ecran sau un flux live, îl rulează printr-un strat de raționament construit pe un model de limbaj pentru a înțelege atât interfața de utilizare, cât și promptul de sarcină, apoi execută acțiunile cu un control real al mouse-ului și tastaturii, așa cum ar face un om. Această buclă completă, percepe, gândește, acționează continuu. Deci agentul nu reacționează doar o dată, ci navighează activ în interfață, gestionând fluxuri în mai mulți pași fără a avea nevoie de scripturi codificate. Arhitectura este un amestec de viziune în stil OCR pentru a citi text/butoane/pictograme, raționament semantic pentru a decide ce să facă și un strat de control care poate face clic, derula, tasta etc. Unde acest lucru devine cu adevărat interesant este în gestionarea erorilor. Acești agenți pot reflecta după acțiuni și pot replanifica dacă ceva nu merge așa cum se aștepta. Spre deosebire de scripturile RPA care se întrerup dacă o interfață de utilizare se schimbă ușor, cum ar fi un buton care schimbă poziția sau o etichetă care este redenumită, un agent VLA se poate adapta la noul aspect folosind indicii vizuale și înțelegerea limbajului. Îl face mult mai rezistent pentru automatizarea în lumea reală, unde interfețele se schimbă constant. Ceva cu care m-am luptat personal când mi-am codat propriii roboți de cercetare prin instrumente precum dramaturgul. Jocuri Jocurile sunt unul dintre cele mai clare cazuri de utilizare în care agenții VLA pot străluci, gândiți-vă la ei mai puțin ca la roboți și mai mult ca la jucători AI imersivi. Întregul flux este același, agentul vede ecranul jocului (cadre, meniuri, solicitări de text), motive despre ceea ce ar trebui să facă, apoi joacă folosind mouse-ul, tastatura sau comenzile. Nu se concentrează pe forța brută, aceasta este inteligența artificială care învață cum să se joace ca un om. Percepție + gândire + control, toate legate împreună. Proiectul SIMA al DeepMind a deblocat acest lucru prin combinarea unui model de limbaj vizual cu un strat predictiv și l-a introdus în jocuri precum No Man's Sky și Minecraft. Doar uitându-se la ecran și urmând instrucțiuni, agentul putea îndeplini sarcini abstracte precum "să construiască un foc de tabără" prin înlănțuirea pașilor potriviți, să adune lemne, să găsească chibrituri și să folosească inventarul. Și nici nu s-a limitat la un singur meci. A transferat aceste cunoștințe între diferite medii. Agenții de jocuri VLA nu sunt blocați într-un singur set de reguli. Același agent se poate adapta la mecanici complet diferite, doar din baza viziunii și a limbajului. Și pentru că este construit pe infrastructura LLM, poate explica ce face, poate urma instrucțiuni în limbaj natural în mijlocul jocului sau poate colabora cu jucătorii în timp real. Nu suntem departe de a avea colegi de echipă AI care se adaptează stilului tău de joc și personalizărilor, totul datorită Codecului.

9,19K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante