Wat is $CODEC Robotica, Operators, Gaming? Alles hierboven en meer. Codec’s vision-language-action (VLA) is een framework-agnostisch model, dat tientallen gebruikscases mogelijk maakt dankzij de unieke mogelijkheid om fouten te visualiseren in vergelijking met LLM's. In de afgelopen 12 maanden hebben we gezien dat LLM's voornamelijk functioneren als lusmechanismen, aangedreven door vooraf gedefinieerde gegevens en responspatronen. Omdat ze zijn gebouwd op spraak en tekst, hebben LLM's een beperkte mogelijkheid om zich verder te ontwikkelen dan het venster van linguïstische context waarop ze zijn getraind. Ze kunnen geen sensorische input interpreteren, zoals gezichtsuitdrukkingen of realtime emotionele signalen, omdat hun redenering gebonden is aan taal, niet aan perceptie. De meeste agenten van vandaag combineren transformer-gebaseerde LLM's met visuele encoders. Ze "zien" de interface via screenshots, interpreteren wat op het scherm staat en genereren reeksen van acties, klikken, toetsaanslagen, scrollen om instructies te volgen en taken te voltooien. Dit is waarom AI nog niet grote categorieën banen heeft vervangen: LLM's zien screenshots, geen pixels. Ze begrijpen de dynamische visuele semantiek van de omgeving niet, alleen wat leesbaar is door statische frames. Hun typische workflow is repetitief: maak een screenshot, redeneer over de volgende actie, voer deze uit, maak dan een ander frame en herhaal. Deze perceive-think loop gaat door totdat de taak is voltooid of de agent faalt. Om echt te generaliseren, moet AI zijn omgeving waarnemen, redeneren over zijn toestand en passend handelen om doelen te bereiken, niet alleen snapshots interpreteren. We hebben al macro's, RPA-bots en automatiseringsscripts, maar ze zijn zwak en onstabiel. Een kleine pixelverschuiving of lay-outwijziging breekt de flow en vereist handmatige patching. Ze kunnen zich niet aanpassen wanneer er iets verandert in de workflow. Dat is de bottleneck. Vision-Language-Action (VLA) Codec’s VLA-agenten draaien op een intuïtieve maar krachtige lus: waarnemen, denken, handelen. In plaats van alleen tekst uit te spugen zoals de meeste LLM's, zien deze agenten hun omgeving, beslissen wat te doen en voeren het dan uit. Het is allemaal verpakt in één uniforme pijplijn, die je kunt visualiseren in drie kernlagen: Visie De agent waarneemt eerst zijn omgeving door middel van visie. Voor een desktop Operator-agent betekent dit het vastleggen van een screenshot of visuele input van de huidige staat (bijv. een app-venster of tekstvak). De visiecomponent van het VLA-model interpreteert deze input, leest de tekst op het scherm en herkent interface-elementen of objecten. Ook wel de ogen van de agent genoemd. Taal Dan komt het denken. Gegeven de visuele context (en eventuele instructies of doelen), analyseert het model welke actie vereist is. In wezen "denkt" de AI na over de juiste reactie, net zoals een persoon zou doen. De VLA-architectuur voegt visie en taal intern samen, zodat de agent bijvoorbeeld kan begrijpen dat een pop-updialoog een ja/nee-vraag stelt. Het zal dan beslissen over de juiste actie (bijv. klik op "OK") op basis van het doel of de prompt. Dit fungeert als de hersenen van de agent, die waargenomen inputs aan een actie koppelt. Actie Ten slotte handelt de agent door een controlecommando naar de omgeving uit te voeren. In plaats van tekst genereert het VLA-model een actie (zoals een muisklik, toetsaanslag of API-aanroep) die direct met het systeem interageert. In het dialoogvoorbeeld zou de agent de klik op de "OK"-knop uitvoeren. Dit sluit de lus: na het handelen kan de agent visueel het resultaat controleren en de perceive–think–act-cyclus voortzetten. Acties zijn de belangrijkste scheiding die hen van chatboxen naar echte operators verandert. Gebruikscases Zoals ik al zei, is Codec door de architectuur narratief agnostisch. Net zoals LLM's niet beperkt zijn tot de tekstuele outputs die ze kunnen produceren, zijn VLA's niet beperkt tot de taken die ze kunnen voltooien. Robotica In plaats van te vertrouwen op oude scripts of imperfecte automatisering, nemen VLA-agenten visuele input (camera-feed of sensoren) op, geven deze door aan een taalmachine voor planning en geven vervolgens daadwerkelijke controlecommando's uit om te bewegen of met de wereld te interageren. In wezen ziet de robot wat er voor hem staat, verwerkt instructies zoals "verplaats het Pepsi-blikje naast de sinaasappel," bepaalt waar alles is, hoe te bewegen zonder iets om te stoten, en doet dit zonder hardcoding. Dit is dezelfde klasse van systeem als Google’s RT-2 of PaLM-E. Grote modellen die visie en taal combineren om echte wereldacties te creëren. CogAct’s VLA-werk is een goed voorbeeld, de robot scant een rommelige tafel, krijgt een natuurlijke prompt en doorloopt een volledige lus: object-ID, padplanning, bewegingsuitvoering. Operators In de desktop- en webomgeving functioneren VLA-agenten in wezen als digitale werknemers. Ze "zien" het scherm via een screenshot of live-feed, draaien dat door een redeneelaag die is gebouwd op een taalmachine om zowel de UI als de taakprompt te begrijpen, en voeren vervolgens de acties uit met echte muis- en toetsenbordbediening, zoals een mens zou doen. Deze volledige lus, waarnemen, denken, handelen, draait continu. Dus de agent reageert niet alleen één keer, hij navigeert actief door de interface, behandelt meerdere stappenflows zonder dat er hardcoded scripts nodig zijn. De architectuur is een mix van OCR-stijl visie om tekst/knoppen/iconen te lezen, semantische redenering om te beslissen wat te doen, en een controlelaag die kan klikken, scrollen, typen, enz. Waar dit echt interessant wordt, is in foutafhandeling. Deze agenten kunnen reflecteren na acties en opnieuw plannen als iets niet gaat zoals verwacht. In tegenstelling tot RPA-scripts die breken als een UI iets verandert, zoals een knop die van positie verschuift of een label dat wordt hernoemd, kan een VLA-agent zich aanpassen aan de nieuwe lay-out met behulp van visuele aanwijzingen en taalbegrip. Dit maakt het veel veerkrachtiger voor automatisering in de echte wereld waar interfaces voortdurend veranderen. Iets waar ik persoonlijk mee heb geworsteld bij het coderen van mijn eigen onderzoeksbots via tools zoals playwright. Gaming Gaming is een van de duidelijkste gebruikscases waar VLA-agenten kunnen uitblinken, beschouw ze minder als bots en meer als meeslepende AI-spelers. De hele flow is hetzelfde, de agent ziet het spelscherm (frames, menu's, tekstprompts), redeneert over wat hij moet doen en speelt vervolgens met muis-, toetsenbord- of controllerinvoer. Het is niet gericht op brute kracht, dit is AI die leert hoe te gamen zoals een mens zou doen. Waarneming + denken + controle, allemaal met elkaar verbonden. DeepMind’s SIMA-project heeft dit ontgrendeld door een visie-taalmodel te combineren met een voorspellende laag en dit in games zoals No Man’s Sky en Minecraft te plaatsen. Door alleen het scherm te bekijken en instructies te volgen, kon de agent abstracte taken voltooien zoals "bouw een kampvuur" door de juiste stappen aan elkaar te koppelen, hout te verzamelen, lucifers te vinden en de inventaris te gebruiken. En het was niet beperkt tot slechts één spel. Het droeg die kennis over tussen verschillende omgevingen. VLA-gamingagenten zijn niet vastgelegd in één regelsysteem. Dezelfde agent kan zich aanpassen aan volledig verschillende mechanics, alleen al op basis van visie en taalgronding. En omdat het is gebouwd op LLM-infrastructuur, kan het uitleggen wat het doet, natuurlijke taal-instructies volgen tijdens het spel, of samenwerken met spelers in realtime. We zijn niet ver verwijderd van het hebben van AI-teamgenoten die zich aanpassen aan jouw speelstijl en personalisaties, allemaal dankzij Codec.
9,19K