Vad är $CODEC Robotik, operatörer, spel? Allt ovanstående och mer. Codecs vision-language-action (VLA) är en ramverksagnostisk modell som möjliggör dussintals användningsfall på grund av dess unika förmåga att visualisera fel i jämförelse med LLM:s. Under de senaste 12 månaderna har vi sett att LLM:er främst fungerar som loopmekanismer, drivna av fördefinierade data och svarsmönster. Eftersom de bygger på tal och text har LLM:er en begränsad förmåga att utvecklas bortom det språkliga sammanhang de är utbildade på. De kan inte tolka sensoriska intryck, som ansiktsuttryck eller känslomässiga signaler i realtid, eftersom deras resonemang är bundet till språket, inte uppfattningen. De flesta agenter kombinerar idag transformatorbaserade LLM:er med visuella kodare. De "ser" gränssnittet genom skärmdumpar, tolkar vad som visas på skärmen och genererar sekvenser av åtgärder, klick, tangenttryckningar, rullningar för att följa instruktioner och slutföra uppgifter. Det är därför AI inte har ersatt stora kategorier av jobb ännu: LLM:er ser skärmdumpar, inte pixlar. De förstår inte den dynamiska visuella semantiken i miljön, bara det som kan läsas genom statiska ramar. Deras typiska arbetsflöde är repetitivt: ta en skärmdump, resonera om nästa åtgärd, utför den och ta sedan en annan bildruta och upprepa. Den här loopen av uppfattande-tänkande fortsätter tills uppgiften har slutförts eller agenten misslyckas. För att verkligen generalisera måste AI uppfatta sin omgivning, resonera om sitt tillstånd och agera på lämpligt sätt för att uppnå mål, inte bara tolka ögonblicksbilder. Vi har redan makron, RPA-botar och automatiseringsskript, men de är svaga och instabila. En liten pixelförskjutning eller layoutändring bryter flödet och kräver manuell korrigering. De kan inte anpassa sig när något ändras i arbetsflödet. Det är flaskhalsen. Vision-Språk-Handling (VLA) Codecs VLA-agenter körs i en intuitiv men kraftfull loop: uppfatta, tänka, agera. Istället för att bara spotta ut text som de flesta LLM:er, ser dessa agenter dess miljö, bestämmer vad de ska göra och sedan kör. Allt är paketerat i en enhetlig pipeline, som du kan visualisera i tre kärnlager: Vision Agenten uppfattar först sin omgivning genom visionen. För en skrivbordsoperatörsagent innebär detta att ta en skärmdump eller visuella indata av det aktuella tillståndet (t.ex. ett appfönster eller en textruta). VLA-modellens visionskomponent tolkar denna indata, läser text på skärmen och känner igen gränssnittselement eller objekt. Aka agentens ögon. Språk Sedan kommer tänkandet. Med tanke på den visuella kontexten (och eventuella instruktioner eller mål) analyserar modellen vilken åtgärd som krävs. I grund och botten "tänker" AI:n på det lämpliga svaret ungefär som en person skulle göra. VLA-arkitekturen sammanfogar vision och språk internt, så att agenten till exempel kan förstå att en popup-dialogruta ställer en ja/nej-fråga. Den kommer sedan att besluta om rätt åtgärd (t.ex. klicka på "OK") baserat på målet eller uppmaningen. Fungerar som agentens hjärna och kartlägger upplevda indata till en handling. Handling Slutligen agerar agenten genom att mata ut ett kontrollkommando till miljön. I stället för text genererar VLA-modellen en åtgärd (till exempel ett musklick, en tangenttryckning eller ett API-anrop) som interagerar direkt med systemet. I dialogruteexemplet skulle agenten köra klicket på knappen "OK". Detta sluter cirkeln: efter att ha agerat kan agenten visuellt kontrollera resultatet och fortsätta cykeln uppfatta, tänka och agera. Åtgärder är nyckelavgränsaren som förvandlar dem från chattrutor till faktiska operatörer. Användningsfall Som jag nämnde, på grund av arkitekturen, är Codec narrativ agnostisk. Precis som LLM inte är begränsade av vilka textutdata de kan producera, är VLA:er inte begränsade av vilka uppgifter de kan slutföra. Robotteknik I stället för att förlita sig på gamla skript eller ofullständig automatisering tar VLA-agenter in visuell input (kameraflöde eller sensorer), skickar den genom en språkmodell för planering och skickar sedan ut faktiska kontrollkommandon för att röra sig eller interagera med världen. I grund och botten ser roboten vad som finns framför den, bearbetar instruktioner som "flytta Pepsi-burken bredvid apelsinen", räknar ut var allt finns, hur den ska röra sig utan att välta något och gör det utan att det krävs någon hårdkodning. Detta är samma klass av system som Googles RT-2 eller PaLM-E. Stora modeller som kombinerar vision och språk för att skapa verkliga handlingar. CogActs VLA-arbete är ett bra exempel, roboten skannar en rörig tabell, får en naturlig uppmaning och kör en hel loop: objekt-ID, vägplanering, rörelseutförande. Operatörer I skrivbords- och webbmiljön fungerar VLA-agenter i princip som digitala arbetare. De "ser" skärmen genom en skärmdump eller liveflöde, kör det genom ett resonemangslager som bygger på en språkmodell för att förstå både användargränssnittet och uppgiftsprompten, och utför sedan åtgärderna med riktig mus- och tangentbordskontroll, som en människa skulle göra. Denna fullständiga loop, förnimma, tänka, agera pågår kontinuerligt. Agenten reagerar alltså inte bara en gång, utan navigerar aktivt i gränssnittet och hanterar flera stegflöden utan att behöva några hårdkodade skript. Arkitekturen är en blandning av OCR-stil för att läsa text/knappar/ikoner, semantiskt resonemang för att bestämma vad som ska göras och ett kontrolllager som kan klicka, rulla, skriva etc. Där detta blir riktigt intressant är i felhanteringen. Dessa handläggare kan reflektera efter åtgärder och planera om något inte går som förväntat. Till skillnad från RPA-skript som bryts om ett användargränssnitt ändras något, till exempel om en knapp byter position eller en etikett byter namn, kan en VLA-agent anpassa sig till den nya layouten med hjälp av visuella ledtrådar och språkförståelse. Gör den mycket mer motståndskraftig för automatisering i den verkliga världen där gränssnitten ständigt förändras. Något som jag personligen har kämpat med när jag kodat mina egna forskningsrobotar genom verktyg som playwright. Spel Spel är ett av de tydligaste användningsområdena där VLA-agenter kan glänsa, tänka på dem mindre som bots och mer som uppslukande AI-spelare. Hela flödet är detsamma, agenten ser spelskärmen (ramar, menyer, textmeddelanden), resonerar om vad den ska göra och spelar sedan med hjälp av mus, tangentbord eller kontrollinmatningar. Det är inte fokuserat på brute force, det här är AI som lär sig att spela som en människa skulle göra. Perception + tänkande + kontroll, allt sammanhängande. DeepMinds SIMA-projekt har låst upp detta genom att kombinera en visionsspråkmodell med ett prediktivt lager och släppt det i spel som No Man's Sky och Minecraft. Från att bara titta på skärmen och följa instruktionerna kunde agenten utföra abstrakta uppgifter som att "bygga en lägereld" genom att kedja ihop rätt steg, samla ved, hitta tändstickor och använda inventarier. Och det var inte heller begränsat till bara ett spel. Den kunskapen överfördes mellan olika miljöer. VLA-spelagenter är inte låsta till en regeluppsättning. Samma agent kan anpassa sig till helt olika mekaniker, bara utifrån syn och språklig grund. Och eftersom den är byggd på LLM-infrastruktur kan den förklara vad den gör, följa instruktioner på naturligt språk mitt i spelet eller samarbeta med spelare i realtid. Vi är inte långt ifrån att ha AI-lagkamrater som anpassar sig till din spelstil och dina anpassningar, allt tack vare Codec.
9,2K