Ambienti virtuali per agenti operatore: $CODEC La mia tesi centrale sull'esplosione dell'IA è sempre stata incentrata sull'ascesa degli agenti operatori. Ma per avere successo, questi agenti richiedono un accesso approfondito al sistema, che garantisca loro il controllo sul personal computer e sui dati sensibili, il che introduce seri problemi di sicurezza. Abbiamo già visto come aziende come OpenAI e altri giganti della tecnologia gestiscono i dati degli utenti. Mentre alla maggior parte delle persone non importa, gli individui che trarranno i maggiori benefici dagli agenti operatori, l'1% più ricco, lo fanno assolutamente. Personalmente, non c'è alcuna possibilità di dare a un'azienda come OpenAI l'accesso completo alla mia macchina, anche se ciò significa un aumento della produttività del 10×. Allora perché Codec? L'architettura di Codec è incentrata sul lancio di "desktop cloud" isolati e on-demand per gli agenti di intelligenza artificiale. Al centro c'è un servizio di orchestrazione basato su Kubernetes (nome in codice Captain) che esegue il provisioning di macchine virtuali leggere (VM) all'interno di pod Kubernetes. Ogni agente ottiene il proprio ambiente isolato a livello di sistema operativo (un'istanza completa del sistema operativo Linux) in cui può eseguire applicazioni, browser o qualsiasi codice, completamente in modalità sandbox da altri agenti e dall'host. Kubernetes gestisce la pianificazione, il ridimensionamento automatico e la riparazione automatica di questi pod di agenti, garantendo l'affidabilità e la capacità di attivare/disattivare molte istanze di agenti in base alle esigenze di carico Gli ambienti di esecuzione attendibili (TEE) vengono utilizzati per proteggere queste macchine virtuali, il che significa che il computer dell'agente può essere isolato crittograficamente, la memoria e l'esecuzione possono essere protette dal sistema operativo host o dal provider cloud. Questo è fondamentale per le attività sensibili: ad esempio, una VM in esecuzione in un'enclave potrebbe contenere le chiavi API o i segreti del portafoglio crittografico in modo sicuro. Quando un agente di intelligenza artificiale (un "cervello" basato su LLM) deve eseguire azioni, invia richieste API al servizio Captain, che quindi avvia o gestisce il pod VM dell'agente. Il flusso di lavoro: l'agente richiede una macchina, Captain (tramite Kubernetes) alloca un pod e collega un volume persistente (per il disco della VM). L'agente può quindi connettersi alla propria VM (tramite un canale sicuro o un'interfaccia di streaming) per emettere comandi. Captain espone gli endpoint per consentire all'agente di eseguire comandi della shell, caricare/scaricare file, recuperare registri e persino creare snapshot della VM per un successivo ripristino. Questa progettazione offre all'agente un sistema operativo completo in cui lavorare, ma con accesso controllato e verificato. Poiché è basato su Kubernetes, Codec può ridimensionare automaticamente orizzontalmente, se 100 agenti necessitano di ambienti, può pianificare 100 pod nel cluster e gestire gli errori riavviando i pod. La VM dell'agente può essere dotata di vari server MCP (come una "porta USB" per l'intelligenza artificiale). Ad esempio, il modulo Conductor di Codec è un contenitore che esegue un browser Chrome insieme a un server MCP di Microsoft Playwright per il controllo del browser. Ciò consente a un agente di intelligenza artificiale di aprire pagine Web, fare clic su collegamenti, compilare moduli e raschiare i contenuti tramite chiamate MCP standard, come se fosse un essere umano a controllare il browser. Altre integrazioni MCP potrebbero includere un MCP di filesystem/terminale (per consentire a un agente di eseguire i comandi CLI in modo sicuro) o MCP specifici per l'applicazione (per API cloud, database, ecc.). Essenzialmente, Codec fornisce i "wrapper" dell'infrastruttura (VM, enclavi, networking) in modo che i piani di agenti di alto livello possano essere eseguiti in sicurezza su software e reti reali. Casi d'uso Automazione del portafoglio: Il codec può incorporare portafogli o chiavi all'interno di una VM protetta da TEE, consentendo a un agente AI di interagire con le reti blockchain (fare trading su DeFi, gestire asset crittografici) senza esporre chiavi segrete. Questa architettura consente agli agenti finanziari onchain di eseguire transazioni reali in modo sicuro, cosa che sarebbe molto pericolosa in una tipica configurazione di agente. Lo slogan della piattaforma elenca esplicitamente il supporto per i "portafogli" come funzionalità chiave. Un agente potrebbe, ad esempio, eseguire una CLI per un portafoglio Ethereum all'interno della sua enclave, firmare transazioni e inviarle, con la certezza che se l'agente si comporta male, è confinato nella sua VM e le chiavi non lasciano mai il TEE. Automazione del browser e del web: Gli agenti CodecFlow possono controllare i Web browser completi nella macchina virtuale. L'esempio di Conductor mostra un agente che avvia Chrome e trasmette lo schermo a Twitch in tempo reale. Attraverso l'MCP di Playwright, l'agente può navigare nei siti Web, fare clic sui pulsanti e raschiare i dati proprio come un utente umano. Questo è l'ideale per attività come il web scraping dietro gli accessi, le transazioni web automatizzate o il test di app web. I framework tradizionali di solito si basano su chiamate API o semplici script di browser headless; al contrario, CodecFlow può eseguire un browser reale con un'interfaccia utente visibile, semplificando la gestione di applicazioni Web complesse (ad esempio con pesanti sfide JavaScript o CAPTCHA) sotto il controllo dell'intelligenza artificiale. Automazione GUI nel mondo reale (sistemi legacy): Poiché ogni agente dispone di un vero e proprio sistema operativo desktop, può automatizzare le applicazioni GUI legacy o le sessioni di desktop remoto, funzionando essenzialmente come l'automazione robotica dei processi (RPA) ma guidata dall'intelligenza artificiale. Ad esempio, un agente potrebbe aprire un foglio di calcolo Excel nella sua macchina virtuale Windows o interfacciarsi con una vecchia applicazione terminale che non dispone di API. Il sito di Codec menziona esplicitamente l'abilitazione dell'"automazione legacy". Questo apre la strada all'utilizzo dell'intelligenza artificiale per gestire software che non sono accessibili tramite le moderne API, un'attività che sarebbe molto complicata o pericolosa senza un ambiente contenuto. L'integrazione noVNC inclusa suggerisce che gli agenti possono essere osservati o controllati tramite VNC, il che è utile per monitorare un'intelligenza artificiale che guida una GUI. Simulazione dei flussi di lavoro SaaS: Le aziende hanno spesso processi complessi che coinvolgono più applicazioni SaaS o sistemi legacy. ad esempio, un dipendente potrebbe prendere i dati da Salesforce, combinarli con i dati di un ERP interno, quindi inviare via e-mail un riepilogo a un cliente. Il codec può consentire a un agente di intelligenza artificiale di eseguire l'intera sequenza accedendo effettivamente a queste app tramite un browser o un software client nella sua VM, proprio come farebbe un essere umano. Questo è come l'RPA, ma alimentato da un LLM in grado di prendere decisioni e gestire la variabilità. È importante sottolineare che le credenziali di queste app possono essere fornite alla macchina virtuale in modo sicuro (e persino racchiuse in un TEE), in modo che l'agente possa usarle senza mai "vedere" le credenziali in chiaro o esporle esternamente. Ciò potrebbe accelerare l'automazione delle attività di back office di routine, soddisfacendo al contempo l'IT che ogni agente viene eseguito con privilegi minimi e piena verificabilità (poiché ogni azione nella VM può essere registrata o registrata). Cartina stradale - Lancio della demo pubblica alla fine del mese - Confronto delle funzionalità con altre piattaforme simili (nessun concorrente web3) - Integrazione TAO - Ampia partnership di gioco In termini di originalità, Codec si basa su una base di tecnologie esistenti, ma le integra in un modo nuovo per l'utilizzo degli agenti di intelligenza artificiale. L'idea di ambienti di esecuzione isolati non è nuova (container, VM e TEE sono standard nel cloud computing), ma applicarli ad agenti di intelligenza artificiale autonomi con un livello API (MCP) senza soluzione di continuità è estremamente nuovo. La piattaforma sfrutta standard e strumenti aperti ove possibile: utilizza server MCP come Playwright di Microsoft per il controllo del browser invece di reinventare quella ruota e prevede di supportare le micro-VM Firecracker di AWS per una virtualizzazione più rapida. Ha anche biforcato soluzioni esistenti come noVNC per lo streaming di desktop. Dimostrare il progetto si basa su una tecnologia collaudata (Kubernetes, hardware enclave, librerie open source), concentrando il suo sviluppo originale sulla logica di colla e sull'orchestrazione (la "salsa segreta" è il modo in cui tutto funziona insieme). La combinazione di componenti open source e di un servizio cloud in arrivo (suggerito dalla menzione di un'utilità di token $CODEC e dell'accesso pubblico al prodotto) significa che Codec sarà presto accessibile in più forme (sia come servizio che self-hosted). Squadra Moyai: 15+ anni di esperienza come sviluppatore, attualmente alla guida dello sviluppo dell'intelligenza artificiale presso Elixir Games. lil'km: 5+ anni di sviluppo AI, attualmente lavora con HuggingFace al progetto LeRobot. HuggingFace è un'enorme azienda di robotica e Moyai lavora come responsabile dell'intelligenza artificiale presso Elixir Games (sostenuta da Square Enix e Solanafdn. Ho videochiamato personalmente l'intero team e mi piace molto l'energia che portano. Anche il mio amico che li ha messi sul mio radar li ha incontrati tutti a Token2049 e aveva solo cose positive da dire. Considerazioni finali C'è ancora molto da coprire, che conserverò per futuri aggiornamenti e post nel mio canale Telegram. Da tempo credo che l'infrastruttura cloud sia il futuro per gli agenti degli operatori. Ho sempre rispettato ciò che Nuit sta costruendo, ma Codec è il primo progetto che mi ha mostrato la convinzione full-stack che stavo cercando. Il team è chiaramente composto da ingegneri di alto livello. Hanno detto apertamente che il marketing non è il loro forte, motivo per cui probabilmente questo è passato inosservato. Lavorerò a stretto contatto con loro per contribuire a plasmare la strategia GTM che rifletta effettivamente la profondità di ciò che stanno costruendo. Con una capitalizzazione di mercato di 4 milioni di dollari e questo livello di infrastrutture, sembra enormemente sottovalutato. Se riusciranno a fornire un prodotto utilizzabile, penso che potrebbe facilmente segnare l'inizio del prossimo ciclo di infrastrutture AI. Come sempre, c'è un rischio e anche se ho controllato il team di nascosto nelle ultime settimane, nessun progetto è mai completamente a prova di tappeto. Obiettivi di prezzo? Molto più in alto.
21,25K