Udělejte si laskavost a přečtěte si Trissyino vysvětlení, proč je @codecopenflow jednou z nejlepších sázek pro operátory umělé inteligence OpenAI právě vydala svého agenta Operators, takže je jasné, že ti velcí také pracují na VLA Stále vysoké riziko, ale stratosféra je pro tento film zastřešující střechou
Trissy
Trissy18. 7. 16:10
OpenAI dnes potvrdila mou severskou tezi o AI tím, že uvolnila svého agenta operátora. To byla nejen moje hlavní teze pro $CODEC, ale i pro všechny ostatní investice do umělé inteligence, které jsem provedl, včetně těch ze začátku roku během mánie umělé inteligence. S Codecem se hodně diskutovalo ohledně robotiky, zatímco tato vertikála bude mít velmi brzy svůj vlastní příběh, základním důvodem, proč jsem byl od prvního dne ohledně Codecu tak optimistický, je to, jak jeho architektura pohání operátory. Lidé stále podceňují, jak velký podíl na trhu je v sázce tím, že vytvářejí software, který běží autonomně a překonává lidské pracovníky bez potřeby neustálých výzev nebo dohledu. Viděl jsem spoustu srovnání s $NUIT. V první řadě chci říct, že jsem velkým fanouškem toho, co Nuit budují a nepřeji jim nic jiného než jejich úspěch. Pokud do mého telegramu napíšete "nuit", uvidíte, že v dubnu jsem řekl, že kdybych měl držet jednu minci několik měsíců, byla by to Nuit, a to kvůli mé operátorské diplomové práci. Nuit byl na papíře nejslibnějším projektem operátora, ale po rozsáhlém výzkumu jsem zjistil, že jejich architektura postrádá hloubku potřebnou k ospravedlnění velké investice nebo k tomu, abych za ní postavil svou pověst. S ohledem na tuto skutečnost jsem si již byl vědom architektonických mezer ve stávajících týmech operátorů a aktivně jsem hledal projekt, který by je řešil. Krátce poté se objevil Codec (díky @0xdetweiler naléhání, abych se na ně podíval hlouběji) a toto je rozdíl mezi těmito dvěma: $CODEC vs $NUIT Architektura kodeku je postavena ve třech vrstvách; Stroj, systém a inteligenci, které oddělují infrastrukturu, rozhraní prostředí a logiku umělé inteligence. Každý agent operátora v kodeku běží ve svém vlastním izolovaném virtuálním počítači nebo kontejneru, což umožňuje téměř nativní výkon a izolaci chyb. Tento vrstvený design znamená, že komponenty se mohou škálovat nebo vyvíjet nezávisle, aniž by došlo k narušení systému. Architektura Nuit se ubírá jinou cestou tím, že je více monolitická. Jejich zásobník se točí kolem specializovaného agenta webového prohlížeče, který kombinuje analýzu, uvažování pomocí umělé inteligence a akci. To znamená, že hluboce analyzují webové stránky do strukturovaných dat, která může umělá inteligence konzumovat, a spoléhají se na cloudové zpracování pro náročné úkoly umělé inteligence. Přístup kodeku, který do každého agenta zabuduje odlehčený model Vision-Language-Action (VLA), znamená, že může běžet plně lokálně. Což nevyžaduje neustálé pingování zpět do cloudu pro pokyny, snižuje latenci a vyhýbá se závislosti na provozuschopnosti a šířce pásma. Agent společnosti Nuit zpracovává úkoly tak, že nejprve převádí webové stránky do sémantického formátu a poté pomocí mozku LLM zjistí, co dělat, což se postupem času zlepšuje díky zpětnovazebnímu učení. I když je tento tok efektivní pro automatizaci webu, závisí na náročném zpracování umělé inteligence na straně cloudu a předdefinovaných strukturách stránek. Inteligence lokálního zařízení kodeku znamená, že rozhodnutí se dějí blíže k datům, snižuje režijní náklady a činí systém stabilnějším vůči neočekávaným změnám (žádné křehké skripty nebo předpoklady DOM). Operátoři kodeku se řídí nepřetržitou smyčkou vnímání-myšlení-jednání. Strojová vrstva streamuje prostředí (např. živou aplikaci nebo kanál robota) do vrstvy inteligence prostřednictvím optimalizovaných kanálů systémové vrstvy, což umělé inteligenci poskytuje "oči" o aktuálním stavu. VLA model agenta pak interpretuje vizuály a instrukce společně a rozhoduje o akci, kterou systémová vrstva provádí prostřednictvím událostí klávesnice/myši nebo ovládání robota. Tato integrovaná smyčka znamená, že se přizpůsobí živým událostem, a i když se uživatelské rozhraní posune, nepřerušíte tok. Abychom to vše uvedli do jednodušší analogie, představte si operátory Codecu jako soběstačného zaměstnance, který se přizpůsobuje překvapením v práci. Agent Nuit je jako zaměstnanec, který se potřebuje zastavit, popsat situaci nadřízenému po telefonu a počkat na pokyny. Aniž bychom se příliš pouštěli do technické králičí nory, mělo by vám to poskytnout představu o tom, proč jsem si vybral Codec jako svou primární sázku na operátory. Ano, Nuit má podporu od YC, naskládaného týmu a githubu úrovně S. I když byla architektura Codecu vytvořena s ohledem na horizontální škálování, znamená to, že můžete nasadit tisíce agentů paralelně s nulovou sdílenou pamětí nebo kontextem provádění mezi agenty. Tým Codecu také nejsou průměrní vývojáři. Jejich architektura VLA otevírá velké množství případů použití, které u předchozích modelů agentů nebylo možné kvůli vidění skrz pixely, nikoli snímky obrazovky. Mohl bych pokračovat, ale to si nechám na budoucí příspěvky.
1,9K