Apenas faça um favor a si mesmo e leia a explicação da Trissy sobre porque @codecopenflow é uma das melhores apostas para Operadores de IA A OpenAI acabou de lançar seu agente de Operadores, então está claro que os grandes também estão trabalhando em VLAs Ainda é de alto risco, mas a estratosfera é o fooking teto para este.
Trissy
Trissy18/07, 16:10
A OpenAI acabou de confirmar a minha tese de estrela do norte para a IA hoje ao lançar o seu agente operador. Não só foi esta a minha tese orientadora para o $CODEC, mas também para todos os outros investimentos em IA que fiz, incluindo aqueles do início do ano durante a mania da IA. Tem havido muita discussão com a Codec em relação à Robótica, enquanto esse setor terá a sua própria narrativa muito em breve, a razão subjacente pela qual fui tão otimista em relação à Codec desde o primeiro dia é devido à forma como a sua arquitetura alimenta os agentes operadores. As pessoas ainda subestimam quanta quota de mercado está em jogo ao construir software que funciona de forma autónoma, superando trabalhadores humanos sem a necessidade de constantes instruções ou supervisão. Vi muitas comparações com o $NUIT. Em primeiro lugar, quero dizer que sou um grande fã do que a Nuit está a construir e desejo nada menos que o seu sucesso. Se você digitar "nuit" no meu telegram, verá que em abril eu disse que se tivesse que segurar uma moeda por vários meses, teria sido a Nuit devido à minha tese de operador. A Nuit era o projeto operador mais promissor no papel, mas após uma pesquisa extensa, descobri que a sua arquitetura carecia da profundidade necessária para justificar um investimento significativo ou colocar a minha reputação por trás dela. Tendo isso em mente, já estava ciente das lacunas arquitetónicas nas equipas de agentes operadores existentes e ativamente à procura de um projeto que as abordasse. Pouco depois, a Codec apareceu (graças ao @0xdetweiler que insistiu para eu olhar mais a fundo para eles) e esta é a diferença entre os dois: $CODEC vs $NUIT A arquitetura da Codec é construída em três camadas; Máquina, Sistema e Inteligência, que separam a infraestrutura, a interface do ambiente e a lógica da IA. Cada agente operador na Codec funciona na sua própria VM ou container isolado, permitindo desempenho quase nativo e isolamento de falhas. Este design em camadas significa que os componentes podem escalar ou evoluir de forma independente sem quebrar o sistema. A arquitetura da Nuit segue um caminho diferente, sendo mais monolítica. A sua pilha gira em torno de um agente de navegador web especializado que combina análise, raciocínio de IA e ação. Isso significa que eles analisam profundamente as páginas web em dados estruturados para a IA consumir e dependem do processamento em nuvem para tarefas pesadas de IA. A abordagem da Codec de incorporar um modelo leve de Visão-Linguagem-Ação (VLA) dentro de cada agente significa que pode funcionar totalmente local. O que não requer constantes pings de volta para a nuvem para instruções, eliminando a latência e evitando a dependência de tempo de atividade e largura de banda. O agente da Nuit processa tarefas convertendo primeiro páginas web em um formato semântico e depois usando um cérebro LLM para descobrir o que fazer, o que melhora ao longo do tempo com aprendizado por reforço. Embora eficaz para automação web, este fluxo depende de processamento pesado de IA do lado da nuvem e estruturas de página predefinidas. A inteligência local do dispositivo da Codec significa que as decisões acontecem mais perto dos dados, reduzindo a sobrecarga e tornando o sistema mais estável a mudanças inesperadas (sem scripts frágeis ou suposições de DOM). Os operadores da Codec seguem um ciclo contínuo de perceber–pensar–agir. A camada da máquina transmite o ambiente (por exemplo, um feed de app ao vivo ou robô) para a camada de inteligência através dos canais otimizados da camada do sistema, dando à IA "olhos" sobre o estado atual. O modelo VLA do agente então interpreta os visuais e instruções juntos para decidir sobre uma ação, que a camada do Sistema executa através de eventos de teclado/mouse ou controle de robô. Este ciclo integrado significa que se adapta a eventos ao vivo, mesmo que a interface do usuário mude, você não quebrará o fluxo. Para colocar tudo isso em uma analogia mais simples, pense nos operadores da Codec como um empregado autossuficiente que se adapta a surpresas no trabalho. O agente da Nuit é como um empregado que precisa pausar, descrever a situação a um supervisor ao telefone e esperar por instruções. Sem entrar muito em um buraco técnico, isso deve lhe dar uma ideia de alto nível sobre por que escolhi a Codec como minha aposta principal em Operadores. Sim, a Nuit tem apoio da YC, uma equipe forte e um github de nível S. Embora a arquitetura da Codec tenha sido construída com escalabilidade horizontal em mente, o que significa que você pode implantar milhares de agentes em paralelo com zero memória compartilhada ou contexto de execução entre os agentes. A equipe da Codec também não é composta por desenvolvedores comuns. A sua arquitetura VLA abre uma multitude de casos de uso que não eram possíveis com modelos de agentes anteriores devido a ver através de pixels, não capturas de tela. Eu poderia continuar, mas vou guardar isso para futuros posts.
1,92K