Bare gjør deg selv en tjeneste og les Trissys forklaring på hvorfor @codecopenflow er et av de beste spillene for AI-operatører OpenAI har nettopp sluppet sin Operators-agent, så det er tydelig at de store også jobber med VLA-er Fortsatt høy risiko, men stratosfæren er det forrykende taket for denne
Trissy
Trissy18. juli, 16:10
OpenAI bekreftet nettopp min nordlige stjerneoppgave for AI i dag ved å frigi operatøragenten deres. Ikke bare var dette min veiledende oppgave for $CODEC, men alle andre AI-investeringer jeg gjorde, inkludert de fra tidligere på året under AI-mani. Det har vært mye diskusjon med Codec med hensyn til robotikk, mens den vertikalen vil ha sin egen fortelling veldig snart, er den underliggende grunnen til at jeg var så positiv til Codec fra dag 1 på grunn av hvordan arkitekturen driver operatøragenter. Folk undervurderer fortsatt hvor mye markedsandel som står på spill ved å bygge programvare som kjører autonomt, og overgår menneskelige arbeidere uten behov for konstante spørsmål eller tilsyn. Jeg har sett mange sammenligninger med $NUIT. For det første vil jeg si at jeg er en stor fan av det Nuit bygger og ønsker ingenting annet enn suksess. Hvis du skriver "nuit" i telegrammet mitt, vil du se at jeg tilbake i april sa at hvis jeg måtte holde en mynt i flere måneder, ville det ha vært Nuit på grunn av operatøroppgaven min. Nuit var det mest lovende operatørprosjektet på papiret, men etter omfattende undersøkelser fant jeg ut at arkitekturen deres manglet dybden som trengs for å rettferdiggjøre en stor investering eller legge omdømmet mitt bak det. Med dette i tankene var jeg allerede klar over de arkitektoniske hullene i eksisterende operatøragentteam og søkte aktivt etter et prosjekt som adresserte dem. Kort tid etter dukket Codec opp (takket være at @0xdetweiler insisterte på at jeg ser dypere inn i dem), og dette er forskjellen mellom de to: $CODEC mot $NUIT Codecs arkitektur er bygget over tre lag; Maskin, system og intelligens, som skiller infrastruktur, miljøgrensesnitt og AI-logikk. Hver operatøragent i Codec kjører i sin egen isolerte virtuelle maskin eller beholder, noe som gir nesten opprinnelig ytelse og feilisolering. Denne lagdelte designen betyr at komponenter kan skaleres eller utvikles uavhengig uten å ødelegge systemet. Nuits arkitektur tar en annen vei ved å være mer monolitisk. Stabelen deres dreier seg om en spesialisert nettleseragent som kombinerer parsing, AI-resonnement og handling. Det betyr at de dypt analyserer nettsider til strukturerte data som AI kan konsumere og er avhengige av skybehandling for tunge AI-oppgaver. Codecs tilnærming med å bygge inn en lett Vision-Language-Action (VLA)-modell i hver agent betyr at den kan kjøre helt lokalt. Noe som ikke krever konstant ping tilbake til skyen for instruksjoner, kutter ut ventetid og unngår avhengighet av oppetid og båndbredde. Nuits agent behandler oppgaver ved først å konvertere nettsider til et semantisk format og deretter bruke en LLM-hjerne for å finne ut hva de skal gjøre, noe som forbedres over tid med forsterkende læring. Selv om denne flyten er effektiv for nettautomatisering, avhenger den av tung AI-behandling på skysiden og forhåndsdefinerte sidestrukturer. Codecs lokale enhetsintelligens betyr at beslutninger skjer nærmere dataene, noe som reduserer overhead og gjør systemet mer stabilt for uventede endringer (ingen skjøre skript eller DOM-antakelser). Codecs operatører følger en kontinuerlig oppfatte-tenke-handle-sløyfe. Maskinlaget strømmer miljøet (f.eks. en live-app eller robotfeed) til intelligenslaget via systemlagets optimaliserte kanaler, noe som gir AI "øyne" på den nåværende tilstanden. Agentens VLA-modell tolker deretter bildene og instruksjonene sammen for å bestemme en handling, som systemlaget utfører gjennom tastatur-/musehendelser eller robotkontroll. Denne integrerte sløyfen betyr at den tilpasser seg live-arrangementer, selv om brukergrensesnittet skifter rundt, vil du ikke bryte flyten. For å sette alt dette i en enklere analogi, tenk på Codecs operatører som en selvforsynt ansatt som tilpasser seg overraskelser på jobben. Nuits agent er som en ansatt som må ta en pause, beskrive situasjonen til en veileder over telefon og vente på instruksjoner. Uten å gå for mye ned i et teknisk kaninhull, bør dette gi deg en idé på høyt nivå om hvorfor jeg valgte Codec som min primære innsats på operatører. Ja, Nuit har støtte fra YC, et stablet team og S-nivå github. Selv om Codecs arkitektur er bygget med horisontal skalering i tankene, noe som betyr at du kan distribuere tusenvis av agenter parallelt med null delt minne eller utførelseskontekst mellom agenter. Codecs team er heller ikke dine gjennomsnittlige utviklere. VLA-arkitekturen deres åpner en rekke brukstilfeller som ikke var mulig med tidligere agentmodeller på grunn av å se gjennom piksler, ikke skjermbilder. Jeg kunne fortsette, men jeg sparer det til fremtidige innlegg.
1,9K