DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Trissy

Un'ultima corsa al toro

OpenAI ha appena confermato la mia tesi della stella polare per l'IA oggi rilasciando il loro agente operatore. Non solo questa è stata la mia tesi guida per $CODEC, ma anche per ogni altro investimento in IA che ho fatto, inclusi quelli all'inizio dell'anno durante la mania dell'IA. C'è stata molta discussione con Codec riguardo alla Robotica; mentre quel settore avrà presto la sua narrativa, il motivo sottostante per cui sono stato così ottimista su Codec fin dal primo giorno è dovuto a come la sua architettura alimenta gli agenti operatori. Le persone sottovalutano ancora quanto mercato sia in gioco costruendo software che funziona autonomamente, superando i lavoratori umani senza la necessità di costanti sollecitazioni o supervisione. Ho visto molte comparazioni con $NUIT. Prima di tutto voglio dire che sono un grande fan di ciò che Nuit sta costruendo e non desidero altro che il loro successo. Se digiti "nuit" nel mio telegram, vedrai che già ad aprile ho detto che se avessi dovuto tenere una moneta per diversi mesi sarebbe stata Nuit a causa della mia tesi sugli operatori. Nuit era il progetto operatore più promettente sulla carta, ma dopo un'ampia ricerca, ho scoperto che la loro architettura mancava della profondità necessaria per giustificare un investimento significativo o per mettere la mia reputazione dietro di essa. Tenendo presente questo, ero già consapevole delle lacune architettoniche nei team di agenti operativi esistenti e stavo attivamente cercando un progetto che le affrontasse. Poco dopo è apparso Codec (grazie a @0xdetweiler che ha insistito affinché guardassi più a fondo in loro) e questa è la differenza tra i due: $CODEC vs $NUIT L'architettura di Codec è costruita su tre livelli; Macchina, Sistema e Intelligenza, che separano infrastruttura, interfaccia ambientale e logica IA. Ogni agente operatore in Codec funziona nel proprio VM o contenitore isolato, consentendo prestazioni quasi native e isolamento dei guasti. Questo design a strati significa che i componenti possono scalare o evolversi indipendentemente senza rompere il sistema. L'architettura di Nuit segue un percorso diverso essendo più monolitica. Il loro stack ruota attorno a un agente browser web specializzato che combina parsing, ragionamento IA e azione. Ciò significa che analizzano profondamente le pagine web in dati strutturati per l'IA da consumare e si basa sull'elaborazione cloud per compiti pesanti di IA. L'approccio di Codec di incorporare un modello Vision-Language-Action (VLA) leggero all'interno di ogni agente significa che può funzionare completamente in locale. Questo non richiede costanti richieste al cloud per istruzioni, eliminando la latenza e evitando la dipendenza da uptime e larghezza di banda. L'agente di Nuit elabora i compiti convertendo prima le pagine web in un formato semantico e poi utilizzando un cervello LLM per capire cosa fare, che migliora nel tempo con l'apprendimento per rinforzo. Sebbene sia efficace per l'automazione web, questo flusso dipende da un'elaborazione pesante dell'IA sul lato cloud e da strutture di pagina predefinite. L'intelligenza locale del dispositivo di Codec significa che le decisioni avvengono più vicino ai dati, riducendo i costi e rendendo il sistema più stabile ai cambiamenti imprevisti (niente script fragili o assunzioni DOM). Gli operatori di Codec seguono un ciclo continuo di percepire-pensare-agire. Il livello macchina trasmette l'ambiente (ad es. un'app live o un feed robotico) al livello intelligenza tramite i canali ottimizzati del livello sistema, dando all'IA "occhi" sullo stato attuale. Il modello VLA dell'agente interpreta quindi insieme le immagini e le istruzioni per decidere un'azione, che il livello Sistema esegue tramite eventi di tastiera/mouse o controllo robotico. Questo ciclo integrato significa che si adatta agli eventi dal vivo, anche se l'interfaccia utente cambia, non interromperai il flusso. Per mettere tutto questo in un'analogia più semplice, pensa agli operatori di Codec come a un dipendente autosufficiente che si adatta alle sorprese sul lavoro. L'agente di Nuit è come un dipendente che deve fermarsi, descrivere la situazione a un supervisore al telefono e aspettare istruzioni. Senza scendere troppo in un buco tecnico, questo dovrebbe darti un'idea ad alto livello sul perché ho scelto Codec come la mia scommessa principale sugli operatori. Sì, Nuit ha il supporto di YC, un team eccezionale e un github di livello S. Anche se l'architettura di Codec è stata costruita tenendo presente la scalabilità orizzontale, il che significa che puoi distribuire migliaia di agenti in parallelo senza memoria condivisa o contesto di esecuzione tra gli agenti. Il team di Codec non è nemmeno composto da sviluppatori medi. La loro architettura VLA apre una moltitudine di casi d'uso che non erano possibili con i modelli di agenti precedenti a causa della visione attraverso i pixel, non degli screenshot. Potrei continuare, ma lo riserverò per post futuri.

Cos'è $CODEC Robotica, Operatori, Gioco? Tutto quanto e oltre. La visione-linguaggio-azione (VLA) di Codec è un modello agnostico rispetto al framework, che consente decine di casi d'uso grazie alla sua unica capacità di visualizzare errori rispetto agli LLM. Negli ultimi 12 mesi, abbiamo visto che gli LLM funzionano principalmente come meccanismi di looping, guidati da dati e schemi di risposta predefiniti. Poiché sono costruiti su discorsi e testi, gli LLM hanno una capacità limitata di evolversi oltre la finestra di contesto linguistico su cui sono addestrati. Non possono interpretare input sensoriali, come espressioni facciali o segnali emotivi in tempo reale, poiché il loro ragionamento è vincolato al linguaggio, non alla percezione. La maggior parte degli agenti oggi combina LLM basati su transformer con codificatori visivi. "Vedono" l'interfaccia attraverso screenshot, interpretano ciò che è sullo schermo e generano sequenze di azioni, clic, battute, scorrimenti per seguire istruzioni e completare compiti. Ecco perché l'IA non ha ancora sostituito grandi categorie di lavori: gli LLM vedono screenshot, non pixel. Non comprendono la semantica visiva dinamica dell'ambiente, solo ciò che è leggibile attraverso fotogrammi statici. Il loro flusso di lavoro tipico è ripetitivo: catturare uno screenshot, ragionare sulla prossima azione, eseguirla, quindi catturare un altro fotogramma e ripetere. Questo ciclo percepisci-pensa continua fino al completamento del compito o al fallimento dell'agente. Per generalizzare veramente, l'IA deve percepire il proprio ambiente, ragionare sul proprio stato e agire in modo appropriato per raggiungere obiettivi, non solo interpretare istantanee. Abbiamo già macro, bot RPA e script di automazione, ma sono deboli e instabili. Un leggero spostamento di pixel o un cambiamento di layout interrompe il flusso e richiede una correzione manuale. Non possono adattarsi quando qualcosa cambia nel flusso di lavoro. Questo è il collo di bottiglia. Vision-Language-Action (VLA) Gli agenti VLA di Codec funzionano su un ciclo intuitivo ma potente: percepire, pensare, agire. Invece di sputare solo testo come la maggior parte degli LLM, questi agenti vedono il loro ambiente, decidono cosa fare e poi eseguono. È tutto confezionato in un'unica pipeline unificata, che puoi visualizzare in tre strati fondamentali: Visione L'agente prima percepisce il proprio ambiente attraverso la visione. Per un agente Operatore desktop, questo significa catturare uno screenshot o un input visivo dello stato attuale (ad es. una finestra dell'app o una casella di testo). Il componente visivo del modello VLA interpreta questo input, leggendo il testo sullo schermo e riconoscendo elementi o oggetti dell'interfaccia. Vale a dire, gli occhi dell'agente. Linguaggio Poi arriva il pensiero. Dato il contesto visivo (e eventuali istruzioni o obiettivi), il modello analizza quale azione è richiesta. Fondamentalmente, l'IA "pensa" alla risposta appropriata proprio come farebbe una persona. L'architettura VLA fonde internamente visione e linguaggio, quindi l'agente può, ad esempio, capire che un dialogo pop-up sta ponendo una domanda sì/no. Deciderà quindi l'azione corretta (ad es. cliccare "OK") in base all'obiettivo o al prompt. Funziona come il cervello dell'agente, mappando gli input percepiti a un'azione. Azione Infine, l'agente agisce emettendo un comando di controllo all'ambiente. Invece di testo, il modello VLA genera un'azione (come un clic del mouse, una battuta o una chiamata API) che interagisce direttamente con il sistema. Nell'esempio del dialogo, l'agente eseguirebbe il clic sul pulsante "OK". Questo chiude il ciclo: dopo aver agito, l'agente può controllare visivamente il risultato e continuare il ciclo percepisci–pensa–agisci. Le azioni sono il separatore chiave che li trasforma da caselle di chat a veri e propri operatori. Casi d'uso Come ho già accennato, grazie all'architettura, Codec è agnostico rispetto alla narrativa. Proprio come gli LLM non sono vincolati da quali output testuali possono produrre, i VLA non sono vincolati da quali compiti possono completare. Robotica Invece di fare affidamento su vecchi script o automazione imperfetta, gli agenti VLA prendono input visivi (flusso video o sensori), lo passano attraverso un modello linguistico per la pianificazione, quindi emettono comandi di controllo reali per muoversi o interagire con il mondo. Fondamentalmente, il robot vede ciò che ha di fronte, elabora istruzioni come "sposta la lattina di Pepsi accanto all'arancia", capisce dove si trova tutto, come muoversi senza rovesciare nulla, e lo fa senza alcun hardcoding richiesto. Questo è lo stesso tipo di sistema dei modelli RT-2 o PaLM-E di Google. Grandi modelli che fondono visione e linguaggio per creare azioni nel mondo reale. Il lavoro VLA di CogAct è un buon esempio, il robot scansiona un tavolo disordinato, riceve un prompt naturale e esegue un ciclo completo: identificazione dell'oggetto, pianificazione del percorso, esecuzione del movimento. Operatori Nell'ambiente desktop e web, gli agenti VLA funzionano fondamentalmente come lavoratori digitali. "Vedono" lo schermo attraverso uno screenshot o un feed dal vivo, eseguono questo attraverso uno strato di ragionamento costruito su un modello linguistico per comprendere sia l'interfaccia utente che il prompt del compito, quindi eseguono le azioni con un reale controllo del mouse e della tastiera, proprio come farebbe un umano. Questo ciclo completo, percepire, pensare, agire, funziona continuamente. Quindi l'agente non sta solo reagendo una volta, sta attivamente navigando nell'interfaccia, gestendo flussi a più passaggi senza necessità di script hardcoded. L'architettura è un mix di visione in stile OCR per leggere testo/pulsanti/icona, ragionamento semantico per decidere cosa fare e uno strato di controllo che può cliccare, scorrere, digitare, ecc. Dove questo diventa davvero interessante è nella gestione degli errori. Questi agenti possono riflettere dopo le azioni e ripianificare se qualcosa non va come previsto. A differenza degli script RPA che si rompono se un'interfaccia cambia leggermente, come un pulsante che cambia posizione o un'etichetta che viene rinominata, un agente VLA può adattarsi al nuovo layout utilizzando indizi visivi e comprensione del linguaggio. Rende l'automazione nel mondo reale molto più resiliente, dove le interfacce cambiano costantemente. Qualcosa con cui ho personalmente lottato quando ho codificato i miei bot di ricerca attraverso strumenti come playwright. Gioco Il gioco è uno dei casi d'uso più chiari in cui gli agenti VLA possono brillare, pensali meno come bot e più come giocatori AI immersivi. L'intero flusso è lo stesso, l'agente vede lo schermo di gioco (fotogrammi, menu, prompt di testo), ragiona su cosa dovrebbe fare, quindi gioca utilizzando input da mouse, tastiera o controller. Non si concentra sulla forza bruta, questa è un'IA che impara a giocare come farebbe un umano. Percezione + pensiero + controllo, tutto legato insieme. Il progetto SIMA di DeepMind ha sbloccato questo combinando un modello visione-linguaggio con uno strato predittivo e inserendolo in giochi come No Man's Sky e Minecraft. Solo osservando lo schermo e seguendo le istruzioni, l'agente potrebbe completare compiti astratti come "costruire un falò" concatenando i passaggi giusti, raccogliere legna, trovare fiammiferi e usare l'inventario. E non era limitato a un solo gioco. Ha trasferito quella conoscenza tra ambienti diversi. Gli agenti di gioco VLA non sono bloccati in un unico insieme di regole. Lo stesso agente può adattarsi a meccaniche completamente diverse, solo dalla base visiva e linguistica. E poiché è costruito su un'infrastruttura LLM, può spiegare cosa sta facendo, seguire istruzioni in linguaggio naturale durante il gioco o collaborare con i giocatori in tempo reale. Non siamo lontani dall'avere compagni AI che si adattano al tuo stile di gioco e alle tue personalizzazioni, tutto grazie a Codec.

Una discrepanza tra prezzo e fondamentali. $KNET ($8 milioni) vs $ALCH ($120 milioni) @Kingnet_AI Gestisce tutto, dalla modellazione 2D/3D a rigging di personaggi completi, animazioni e persino generazione di codice, direttamente da prompt in linguaggio naturale. L'interfaccia senza codice significa che chiunque può passare dall'idea a una demo di gioco Web3 giocabile senza toccare una riga di codice. Accelera le costruzioni, riduce i costi e abbassa enormemente la barriera. È posizionato verso sviluppatori di giochi nativi Web3, costruttori indie e piccoli studi. Forte enfasi sulla generazione di asset + prototipazione end-to-end. Fondamentalmente trasforma lo sviluppo di giochi in un flusso di lavoro visivo AI, mirato a ottenere più contenuti più velocemente, anche se non sei tecnico. KNET alimenta tutto, pagamenti, query AI e, infine, il marketplace per asset generati. Ha anche ganci di governance. Legato a KingNet (grande azienda di giochi pubblica) e già integrato in Solana, BNB, TON. Sta vedendo un'iniziale trazione + vittorie in hackathon. Kingnet AI è sostenuto da Kingnet Network Co. Ltd, un gigante del gaming cinese quotato in borsa fondato nel 2008. Con un track record di titoli di successo come Happy Tower, Shushan Legend, MU Miracle e World of Warships Blitz, l'azienda è uno dei più rinomati incubatori nel gaming mobile. Kingnet AI è costruito da SmileCobra Studio (Singapore) in esclusiva partnership con il ramo di Kingnet a Hong Kong. La società madre è valutata oltre $5 miliardi con $1 miliardo nel suo bilancio. @alchemistAIapp Una piattaforma no code più ampia che converte i prompt degli utenti in app o giochi completamente funzionali. Utilizza un motore AI multi-agente (modelli specializzati multipli) per analizzare i prompt degli utenti, generare codice, creare visuali e assemblare applicazioni complete in tempo reale. Si rivolge a un'ampia base di utenti, da hobbisti a costruttori Web3, che cercano di prototipare rapidamente strumenti, giochi o siti web. L'UX è molto semplificato, ad esempio inserisci "un gioco di serpenti con uno sfondo di legno marrone", e l'interfaccia del Laboratorio Sacro di Alchemist organizza gli agenti AI per produrre codice front end, logica di gioco e persino grafiche personalizzate. ALCH è utilizzato nel marketplace Arcane Forge e per accedere ai servizi AI di Alchemist. Gli utenti possono guadagnare ALCH vendendo applicazioni o giochi utili, il marketplace ha funzionalità di mancia e scoperta per premiare le app popolari. Alchemist è stata fondata nel 2024 da un team in Vietnam, è guidata da Thien Phung Van (fondatore/CFO), Trong Pham Van (co-fondatore) e Duc Loc “Louis” Nguyen (CTO). Con esperienze in software e imprenditorialità (Thien era precedentemente CEO/CFO di Vistia), il piccolo team ha lanciato Alchemist come una startup non finanziata. TLDR; Kingnet AI è specializzato, con un focus sull'automazione della creazione di giochi end-to-end per Web3, sostenuto da un'infrastruttura di gioco comprovata. Alchemist AI è più ampio nel suo ambito, offrendo un'interfaccia LLM veloce per costruire strumenti e giochi unici con appeal al dettaglio. Kingnet è profondo nel dominio del gaming, mentre Alchemist è ampio su diversi casi d'uso. Basato su questo, è abbastanza chiaro che Kingnet è gravemente sottovalutato in confronto. Kingnet è molto più avanti nel loro ciclo di vita del prodotto e non ha ancora completamente sviluppato la loro UX e interfacce, anche se la qualità del team, l'esperienza e il supporto superano significativamente la piattaforma di Alchemist, pur essendo 15 volte inferiore in mcap.

Di tanto in tanto nasce un progetto unico che corre la sua corsa. L'IA, per la maggior parte, non è stata altro che terminali in stile chatgpt e generazione creativa di immagini/video. Sentiamo da diversi mesi che siamo sul punto di vedere tutti perdere il lavoro a causa dell'IA. Sì, ha reso tutti 10 volte più produttivi, ma non abbiamo ancora sostituito completamente le persone nella forza lavoro. Perché? Gli assistenti IA dominanti oggi, dai chatbot in un browser ai framework "agente" sperimentali, sono forti nella conversazione, ma strutturalmente limitati nell'esecuzione. Di solito si basano su un browser o su un semplice ambiente di scripting per eseguire compiti. Anche se questo funziona per recuperare informazioni o per l'automazione web di base, questi agenti faticano con processi complessi e a più fasi e spesso si bloccano quando le cose deviano dal loro percorso confinato. Gli attuali agenti IA falliscono perché mancano di memoria persistente e tolleranza agli errori; quando si trovano di fronte a errori imprevisti, non possono recuperare o adattarsi, spesso bloccandosi o ripetendo indefinitamente. La maggior parte opera in ambienti limitati basati su browser e non può accedere all'intera gamma di software aziendale, lasciando il lavoro routinario al di fuori della loro portata. Ecco perché non abbiamo visto l'IA sostituire ruoli aziendali banali come il supporto clienti e l'amministrazione. Non per mancanza di capacità nei modelli IA stessi, ma perché i framework che li circondano non sono abbastanza affidabili per flussi di lavoro critici. Quindi, cosa è necessario? Un'architettura di sistema ripensata. Una che affronti la tolleranza agli errori, la memoria, l'accesso, l'isolamento e l'efficienza in un unico framework. Invece di bloccarsi al primo input imprevisto, dovrebbero catturare gli errori, adattarsi e riprovare metodi diversi, proprio come fanno gli esseri umani quando le cose vanno male. Per scalare l'IA in flussi di lavoro reali, ha bisogno di memoria persistente e tracciamento delle attività per operare in modo affidabile per lunghi periodi. Richiedono anche accesso completo all'ecosistema, oltre agli strumenti del browser, per utilizzare lo stesso software che usano gli esseri umani, comprese le applicazioni desktop. Senza un'isolamento sicuro, gli agenti non possono operare in modo sicuro in ambienti dedicati, rendendo rischiosa la distribuzione su larga scala a causa di potenziali interferenze tra sistemi. Se vogliono che il loro runtime sia coerente ed efficiente, avranno anche bisogno di una gestione intelligente delle risorse che tratti i computer come un corpo funzionante in vita. Per coloro che hanno collegato i punti, il recente rilascio di Fabric da parte di @Codecopenflow riunisce tutto questo, dando agli agenti IA sistemi operativi (OS) affidabili e completamente dedicati che combinano il potere cognitivo di modelli avanzati con l'infrastruttura di cui hanno bisogno per funzionare come lavoratori digitali affidabili. Fabric in sé potrebbe essere un software completamente indipendente con licenza. Trasforma gli agenti da script legati al browser in operatori autonomi con accesso completo a livello di OS. Proprio come un aggregatore DEX ti indirizza al prezzo più efficiente, Fabric è il layer di routing che serve l'architettura di livello profondo di Codec. Elenca le tue esigenze di CPU, GPU, memoria e eventuali preferenze regionali. Questo significa trovare i server più convenienti come AWS/google cloud o risorse GPU da Render/IO net. Codec fornisce SDK puliti e un'API per il controllo completo di questi operatori IA. Un'azienda può integrare gli agenti Codec nel proprio pipeline software esistente (ad esempio, attivare un agente per gestire una richiesta dell'utente, quindi disattivarlo) senza dover reinventare la propria infrastruttura. Nel supporto clienti, gli agenti possono gestire interi flussi di lavoro, risoluzione delle query, aggiornamenti CRM, rimborsi, riducendo i costi del lavoro fino al 90% migliorando al contempo la coerenza e il tempo di attività. Per le operazioni aziendali, Codec automatizza processi amministrativi ripetitivi come la gestione delle fatture, aggiornamenti HR e richieste di assicurazione, specialmente in settori ad alto volume come finanza e sanità. Concentrandosi su un ambiente completamente isolato e multi-app per ogni operatore IA, l'IA non è limitata dai problemi critici di affidabilità e integrazione che i framework precedenti non potevano affrontare. Fondamentalmente trasformando l'infrastruttura di cloud computing in una linea di assemblaggio flessibile per i lavoratori IA. Ogni "lavoratore" riceve gli strumenti giusti (app, OS, accesso ai dati) e un'imbracatura di sicurezza (isolamento + gestione degli errori) per svolgere il proprio lavoro. Ogni miglioramento nei modelli IA (GPT-5 ecc.) aumenta solo il valore della piattaforma di Codec, perché cervelli migliori possono ora essere collegati a questo forte "corpo" per svolgere compiti ancora più complessi. Codec è agnostico rispetto ai modelli (funziona con qualsiasi modello IA), quindi si prevede che beneficerà dei progressi generali dell'IA senza essere legato al destino di un singolo fornitore. Siamo a un punto di inflessione simile ai primi giorni del cloud computing. Proprio come le aziende che fornivano le piattaforme per il cloud (virtualizzazione, infrastruttura di AWS, ecc.) sono diventate indispensabili per l'IT aziendale, un'azienda che fornisce la piattaforma di riferimento per gli agenti IA opererà in un enorme mercato. OpenAI ha già rilasciato un terminale di codifica cloud completamente agentico chiamato Codex. Codex sarà una mini versione locale di Codex che puoi eseguire sul tuo computer, ma soprattutto il modello principale di Codex sarà nel cloud con il proprio computer. Il co-fondatore di OpenAI crede che le aziende più di successo in futuro saranno queste due tipologie di architettura fuse insieme. Suona familiare. Cosa c'è dopo? Invece di dirti cosa c'è dopo, forse è meglio che ti indichi cosa non abbiamo ancora visto: - Nessuna utilità del token confermata - Nessun incentivo - Nessuna roadmap principale - Nessuna demo - Nessun marketplace - Partnership minime Considerando quanto c'è in cantiere insieme a nuovi siti web, documenti aggiornati, pool di liquidità più profondi, campagne/marketing della comunità e robotica. Codec non ha ancora rivelato molte carte. Certo, potrebbero esserci più prodotti pronti all'uso basati su browser attualmente sul mercato, anche se quanto tempo ci vorrà prima che diventino obsoleti? Questo è un investimento nella direzione dell'IA e nell'architettura principale che sostituirà le forze lavoro umane. Codec ha codificato.

Ambienti virtuali per agenti operatore: $CODEC La mia tesi centrale sull'esplosione dell'IA è sempre stata incentrata sull'ascesa degli agenti operatori. Ma per avere successo, questi agenti richiedono un accesso approfondito al sistema, che garantisca loro il controllo sul personal computer e sui dati sensibili, il che introduce seri problemi di sicurezza. Abbiamo già visto come aziende come OpenAI e altri giganti della tecnologia gestiscono i dati degli utenti. Mentre alla maggior parte delle persone non importa, gli individui che trarranno i maggiori benefici dagli agenti operatori, l'1% più ricco, lo fanno assolutamente. Personalmente, non c'è alcuna possibilità di dare a un'azienda come OpenAI l'accesso completo alla mia macchina, anche se ciò significa un aumento della produttività del 10×. Allora perché Codec? L'architettura di Codec è incentrata sul lancio di "desktop cloud" isolati e on-demand per gli agenti di intelligenza artificiale. Al centro c'è un servizio di orchestrazione basato su Kubernetes (nome in codice Captain) che esegue il provisioning di macchine virtuali leggere (VM) all'interno di pod Kubernetes. Ogni agente ottiene il proprio ambiente isolato a livello di sistema operativo (un'istanza completa del sistema operativo Linux) in cui può eseguire applicazioni, browser o qualsiasi codice, completamente in modalità sandbox da altri agenti e dall'host. Kubernetes gestisce la pianificazione, il ridimensionamento automatico e la riparazione automatica di questi pod di agenti, garantendo l'affidabilità e la capacità di attivare/disattivare molte istanze di agenti in base alle esigenze di carico Gli ambienti di esecuzione attendibili (TEE) vengono utilizzati per proteggere queste macchine virtuali, il che significa che il computer dell'agente può essere isolato crittograficamente, la memoria e l'esecuzione possono essere protette dal sistema operativo host o dal provider cloud. Questo è fondamentale per le attività sensibili: ad esempio, una VM in esecuzione in un'enclave potrebbe contenere le chiavi API o i segreti del portafoglio crittografico in modo sicuro. Quando un agente di intelligenza artificiale (un "cervello" basato su LLM) deve eseguire azioni, invia richieste API al servizio Captain, che quindi avvia o gestisce il pod VM dell'agente. Il flusso di lavoro: l'agente richiede una macchina, Captain (tramite Kubernetes) alloca un pod e collega un volume persistente (per il disco della VM). L'agente può quindi connettersi alla propria VM (tramite un canale sicuro o un'interfaccia di streaming) per emettere comandi. Captain espone gli endpoint per consentire all'agente di eseguire comandi della shell, caricare/scaricare file, recuperare registri e persino creare snapshot della VM per un successivo ripristino. Questa progettazione offre all'agente un sistema operativo completo in cui lavorare, ma con accesso controllato e verificato. Poiché è basato su Kubernetes, Codec può ridimensionare automaticamente orizzontalmente, se 100 agenti necessitano di ambienti, può pianificare 100 pod nel cluster e gestire gli errori riavviando i pod. La VM dell'agente può essere dotata di vari server MCP (come una "porta USB" per l'intelligenza artificiale). Ad esempio, il modulo Conductor di Codec è un contenitore che esegue un browser Chrome insieme a un server MCP di Microsoft Playwright per il controllo del browser. Ciò consente a un agente di intelligenza artificiale di aprire pagine Web, fare clic su collegamenti, compilare moduli e raschiare i contenuti tramite chiamate MCP standard, come se fosse un essere umano a controllare il browser. Altre integrazioni MCP potrebbero includere un MCP di filesystem/terminale (per consentire a un agente di eseguire i comandi CLI in modo sicuro) o MCP specifici per l'applicazione (per API cloud, database, ecc.). Essenzialmente, Codec fornisce i "wrapper" dell'infrastruttura (VM, enclavi, networking) in modo che i piani di agenti di alto livello possano essere eseguiti in sicurezza su software e reti reali. Casi d'uso Automazione del portafoglio: Il codec può incorporare portafogli o chiavi all'interno di una VM protetta da TEE, consentendo a un agente AI di interagire con le reti blockchain (fare trading su DeFi, gestire asset crittografici) senza esporre chiavi segrete. Questa architettura consente agli agenti finanziari onchain di eseguire transazioni reali in modo sicuro, cosa che sarebbe molto pericolosa in una tipica configurazione di agente. Lo slogan della piattaforma elenca esplicitamente il supporto per i "portafogli" come funzionalità chiave. Un agente potrebbe, ad esempio, eseguire una CLI per un portafoglio Ethereum all'interno della sua enclave, firmare transazioni e inviarle, con la certezza che se l'agente si comporta male, è confinato nella sua VM e le chiavi non lasciano mai il TEE. Automazione del browser e del web: Gli agenti CodecFlow possono controllare i Web browser completi nella macchina virtuale. L'esempio di Conductor mostra un agente che avvia Chrome e trasmette lo schermo a Twitch in tempo reale. Attraverso l'MCP di Playwright, l'agente può navigare nei siti Web, fare clic sui pulsanti e raschiare i dati proprio come un utente umano. Questo è l'ideale per attività come il web scraping dietro gli accessi, le transazioni web automatizzate o il test di app web. I framework tradizionali di solito si basano su chiamate API o semplici script di browser headless; al contrario, CodecFlow può eseguire un browser reale con un'interfaccia utente visibile, semplificando la gestione di applicazioni Web complesse (ad esempio con pesanti sfide JavaScript o CAPTCHA) sotto il controllo dell'intelligenza artificiale. Automazione GUI nel mondo reale (sistemi legacy): Poiché ogni agente dispone di un vero e proprio sistema operativo desktop, può automatizzare le applicazioni GUI legacy o le sessioni di desktop remoto, funzionando essenzialmente come l'automazione robotica dei processi (RPA) ma guidata dall'intelligenza artificiale. Ad esempio, un agente potrebbe aprire un foglio di calcolo Excel nella sua macchina virtuale Windows o interfacciarsi con una vecchia applicazione terminale che non dispone di API. Il sito di Codec menziona esplicitamente l'abilitazione dell'"automazione legacy". Questo apre la strada all'utilizzo dell'intelligenza artificiale per gestire software che non sono accessibili tramite le moderne API, un'attività che sarebbe molto complicata o pericolosa senza un ambiente contenuto. L'integrazione noVNC inclusa suggerisce che gli agenti possono essere osservati o controllati tramite VNC, il che è utile per monitorare un'intelligenza artificiale che guida una GUI. Simulazione dei flussi di lavoro SaaS: Le aziende hanno spesso processi complessi che coinvolgono più applicazioni SaaS o sistemi legacy. ad esempio, un dipendente potrebbe prendere i dati da Salesforce, combinarli con i dati di un ERP interno, quindi inviare via e-mail un riepilogo a un cliente. Il codec può consentire a un agente di intelligenza artificiale di eseguire l'intera sequenza accedendo effettivamente a queste app tramite un browser o un software client nella sua VM, proprio come farebbe un essere umano. Questo è come l'RPA, ma alimentato da un LLM in grado di prendere decisioni e gestire la variabilità. È importante sottolineare che le credenziali di queste app possono essere fornite alla macchina virtuale in modo sicuro (e persino racchiuse in un TEE), in modo che l'agente possa usarle senza mai "vedere" le credenziali in chiaro o esporle esternamente. Ciò potrebbe accelerare l'automazione delle attività di back office di routine, soddisfacendo al contempo l'IT che ogni agente viene eseguito con privilegi minimi e piena verificabilità (poiché ogni azione nella VM può essere registrata o registrata). Cartina stradale - Lancio della demo pubblica alla fine del mese - Confronto delle funzionalità con altre piattaforme simili (nessun concorrente web3) - Integrazione TAO - Ampia partnership di gioco In termini di originalità, Codec si basa su una base di tecnologie esistenti, ma le integra in un modo nuovo per l'utilizzo degli agenti di intelligenza artificiale. L'idea di ambienti di esecuzione isolati non è nuova (container, VM e TEE sono standard nel cloud computing), ma applicarli ad agenti di intelligenza artificiale autonomi con un livello API (MCP) senza soluzione di continuità è estremamente nuovo. La piattaforma sfrutta standard e strumenti aperti ove possibile: utilizza server MCP come Playwright di Microsoft per il controllo del browser invece di reinventare quella ruota e prevede di supportare le micro-VM Firecracker di AWS per una virtualizzazione più rapida. Ha anche biforcato soluzioni esistenti come noVNC per lo streaming di desktop. Dimostrare il progetto si basa su una tecnologia collaudata (Kubernetes, hardware enclave, librerie open source), concentrando il suo sviluppo originale sulla logica di colla e sull'orchestrazione (la "salsa segreta" è il modo in cui tutto funziona insieme). La combinazione di componenti open source e di un servizio cloud in arrivo (suggerito dalla menzione di un'utilità di token $CODEC e dell'accesso pubblico al prodotto) significa che Codec sarà presto accessibile in più forme (sia come servizio che self-hosted). Squadra Moyai: 15+ anni di esperienza come sviluppatore, attualmente alla guida dello sviluppo dell'intelligenza artificiale presso Elixir Games. lil'km: 5+ anni di sviluppo AI, attualmente lavora con HuggingFace al progetto LeRobot. HuggingFace è un'enorme azienda di robotica e Moyai lavora come responsabile dell'intelligenza artificiale presso Elixir Games (sostenuta da Square Enix e Solanafdn. Ho videochiamato personalmente l'intero team e mi piace molto l'energia che portano. Anche il mio amico che li ha messi sul mio radar li ha incontrati tutti a Token2049 e aveva solo cose positive da dire. Considerazioni finali C'è ancora molto da coprire, che conserverò per futuri aggiornamenti e post nel mio canale Telegram. Da tempo credo che l'infrastruttura cloud sia il futuro per gli agenti degli operatori. Ho sempre rispettato ciò che Nuit sta costruendo, ma Codec è il primo progetto che mi ha mostrato la convinzione full-stack che stavo cercando. Il team è chiaramente composto da ingegneri di alto livello. Hanno detto apertamente che il marketing non è il loro forte, motivo per cui probabilmente questo è passato inosservato. Lavorerò a stretto contatto con loro per contribuire a plasmare la strategia GTM che rifletta effettivamente la profondità di ciò che stanno costruendo. Con una capitalizzazione di mercato di 4 milioni di dollari e questo livello di infrastrutture, sembra enormemente sottovalutato. Se riusciranno a fornire un prodotto utilizzabile, penso che potrebbe facilmente segnare l'inizio del prossimo ciclo di infrastrutture AI. Come sempre, c'è un rischio e anche se ho controllato il team di nascosto nelle ultime settimane, nessun progetto è mai completamente a prova di tappeto. Obiettivi di prezzo? Molto più in alto.

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari