Cos'è $CODEC Robotica, Operatori, Gioco? Tutto quanto e oltre. La visione-linguaggio-azione (VLA) di Codec è un modello agnostico rispetto al framework, che consente decine di casi d'uso grazie alla sua unica capacità di visualizzare errori rispetto agli LLM. Negli ultimi 12 mesi, abbiamo visto che gli LLM funzionano principalmente come meccanismi di looping, guidati da dati e schemi di risposta predefiniti. Poiché sono costruiti su discorsi e testi, gli LLM hanno una capacità limitata di evolversi oltre la finestra di contesto linguistico su cui sono addestrati. Non possono interpretare input sensoriali, come espressioni facciali o segnali emotivi in tempo reale, poiché il loro ragionamento è vincolato al linguaggio, non alla percezione. La maggior parte degli agenti oggi combina LLM basati su transformer con codificatori visivi. "Vedono" l'interfaccia attraverso screenshot, interpretano ciò che è sullo schermo e generano sequenze di azioni, clic, battute, scorrimenti per seguire istruzioni e completare compiti. Ecco perché l'IA non ha ancora sostituito grandi categorie di lavori: gli LLM vedono screenshot, non pixel. Non comprendono la semantica visiva dinamica dell'ambiente, solo ciò che è leggibile attraverso fotogrammi statici. Il loro flusso di lavoro tipico è ripetitivo: catturare uno screenshot, ragionare sulla prossima azione, eseguirla, quindi catturare un altro fotogramma e ripetere. Questo ciclo percepisci-pensa continua fino al completamento del compito o al fallimento dell'agente. Per generalizzare veramente, l'IA deve percepire il proprio ambiente, ragionare sul proprio stato e agire in modo appropriato per raggiungere obiettivi, non solo interpretare istantanee. Abbiamo già macro, bot RPA e script di automazione, ma sono deboli e instabili. Un leggero spostamento di pixel o un cambiamento di layout interrompe il flusso e richiede una correzione manuale. Non possono adattarsi quando qualcosa cambia nel flusso di lavoro. Questo è il collo di bottiglia. Vision-Language-Action (VLA) Gli agenti VLA di Codec funzionano su un ciclo intuitivo ma potente: percepire, pensare, agire. Invece di sputare solo testo come la maggior parte degli LLM, questi agenti vedono il loro ambiente, decidono cosa fare e poi eseguono. È tutto confezionato in un'unica pipeline unificata, che puoi visualizzare in tre strati fondamentali: Visione L'agente prima percepisce il proprio ambiente attraverso la visione. Per un agente Operatore desktop, questo significa catturare uno screenshot o un input visivo dello stato attuale (ad es. una finestra dell'app o una casella di testo). Il componente visivo del modello VLA interpreta questo input, leggendo il testo sullo schermo e riconoscendo elementi o oggetti dell'interfaccia. Vale a dire, gli occhi dell'agente. Linguaggio Poi arriva il pensiero. Dato il contesto visivo (e eventuali istruzioni o obiettivi), il modello analizza quale azione è richiesta. Fondamentalmente, l'IA "pensa" alla risposta appropriata proprio come farebbe una persona. L'architettura VLA fonde internamente visione e linguaggio, quindi l'agente può, ad esempio, capire che un dialogo pop-up sta ponendo una domanda sì/no. Deciderà quindi l'azione corretta (ad es. cliccare "OK") in base all'obiettivo o al prompt. Funziona come il cervello dell'agente, mappando gli input percepiti a un'azione. Azione Infine, l'agente agisce emettendo un comando di controllo all'ambiente. Invece di testo, il modello VLA genera un'azione (come un clic del mouse, una battuta o una chiamata API) che interagisce direttamente con il sistema. Nell'esempio del dialogo, l'agente eseguirebbe il clic sul pulsante "OK". Questo chiude il ciclo: dopo aver agito, l'agente può controllare visivamente il risultato e continuare il ciclo percepisci–pensa–agisci. Le azioni sono il separatore chiave che li trasforma da caselle di chat a veri e propri operatori. Casi d'uso Come ho già accennato, grazie all'architettura, Codec è agnostico rispetto alla narrativa. Proprio come gli LLM non sono vincolati da quali output testuali possono produrre, i VLA non sono vincolati da quali compiti possono completare. Robotica Invece di fare affidamento su vecchi script o automazione imperfetta, gli agenti VLA prendono input visivi (flusso video o sensori), lo passano attraverso un modello linguistico per la pianificazione, quindi emettono comandi di controllo reali per muoversi o interagire con il mondo. Fondamentalmente, il robot vede ciò che ha di fronte, elabora istruzioni come "sposta la lattina di Pepsi accanto all'arancia", capisce dove si trova tutto, come muoversi senza rovesciare nulla, e lo fa senza alcun hardcoding richiesto. Questo è lo stesso tipo di sistema dei modelli RT-2 o PaLM-E di Google. Grandi modelli che fondono visione e linguaggio per creare azioni nel mondo reale. Il lavoro VLA di CogAct è un buon esempio, il robot scansiona un tavolo disordinato, riceve un prompt naturale e esegue un ciclo completo: identificazione dell'oggetto, pianificazione del percorso, esecuzione del movimento. Operatori Nell'ambiente desktop e web, gli agenti VLA funzionano fondamentalmente come lavoratori digitali. "Vedono" lo schermo attraverso uno screenshot o un feed dal vivo, eseguono questo attraverso uno strato di ragionamento costruito su un modello linguistico per comprendere sia l'interfaccia utente che il prompt del compito, quindi eseguono le azioni con un reale controllo del mouse e della tastiera, proprio come farebbe un umano. Questo ciclo completo, percepire, pensare, agire, funziona continuamente. Quindi l'agente non sta solo reagendo una volta, sta attivamente navigando nell'interfaccia, gestendo flussi a più passaggi senza necessità di script hardcoded. L'architettura è un mix di visione in stile OCR per leggere testo/pulsanti/icona, ragionamento semantico per decidere cosa fare e uno strato di controllo che può cliccare, scorrere, digitare, ecc. Dove questo diventa davvero interessante è nella gestione degli errori. Questi agenti possono riflettere dopo le azioni e ripianificare se qualcosa non va come previsto. A differenza degli script RPA che si rompono se un'interfaccia cambia leggermente, come un pulsante che cambia posizione o un'etichetta che viene rinominata, un agente VLA può adattarsi al nuovo layout utilizzando indizi visivi e comprensione del linguaggio. Rende l'automazione nel mondo reale molto più resiliente, dove le interfacce cambiano costantemente. Qualcosa con cui ho personalmente lottato quando ho codificato i miei bot di ricerca attraverso strumenti come playwright. Gioco Il gioco è uno dei casi d'uso più chiari in cui gli agenti VLA possono brillare, pensali meno come bot e più come giocatori AI immersivi. L'intero flusso è lo stesso, l'agente vede lo schermo di gioco (fotogrammi, menu, prompt di testo), ragiona su cosa dovrebbe fare, quindi gioca utilizzando input da mouse, tastiera o controller. Non si concentra sulla forza bruta, questa è un'IA che impara a giocare come farebbe un umano. Percezione + pensiero + controllo, tutto legato insieme. Il progetto SIMA di DeepMind ha sbloccato questo combinando un modello visione-linguaggio con uno strato predittivo e inserendolo in giochi come No Man's Sky e Minecraft. Solo osservando lo schermo e seguendo le istruzioni, l'agente potrebbe completare compiti astratti come "costruire un falò" concatenando i passaggi giusti, raccogliere legna, trovare fiammiferi e usare l'inventario. E non era limitato a un solo gioco. Ha trasferito quella conoscenza tra ambienti diversi. Gli agenti di gioco VLA non sono bloccati in un unico insieme di regole. Lo stesso agente può adattarsi a meccaniche completamente diverse, solo dalla base visiva e linguistica. E poiché è costruito su un'infrastruttura LLM, può spiegare cosa sta facendo, seguire istruzioni in linguaggio naturale durante il gioco o collaborare con i giocatori in tempo reale. Non siamo lontani dall'avere compagni AI che si adattano al tuo stile di gioco e alle tue personalizzazioni, tutto grazie a Codec.
9,18K