O que é $CODEC Robótica, operadores, jogos? Todos os itens acima e muito mais. O VLA (visão-linguagem-ação) do Codec é um modelo agnóstico de estrutura, permitindo dezenas de casos de uso devido à sua capacidade única de visualizar erros em comparação com os LLMs. Nos últimos 12 meses, vimos que os LLMs funcionam principalmente como mecanismos de looping, impulsionados por dados predefinidos e padrões de resposta. Por serem construídos com base em fala e texto, os LLMs têm uma capacidade limitada de evoluir além da janela do contexto linguístico em que são treinados. Eles não podem interpretar informações sensoriais, como expressões faciais ou pistas emocionais em tempo real, pois seu raciocínio está vinculado à linguagem, não à percepção. A maioria dos agentes hoje combina LLMs baseados em transformadores com codificadores visuais. Eles "veem" a interface por meio de capturas de tela, interpretam o que está na tela e geram sequências de ações, cliques, pressionamentos de tecla, rolagens para seguir instruções e concluir tarefas. É por isso que a IA ainda não substituiu grandes categorias de trabalhos: os LLMs veem capturas de tela, não pixels. Eles não entendem a semântica visual dinâmica do ambiente, apenas o que é legível por meio de quadros estáticos. Seu fluxo de trabalho típico é repetitivo: capture uma captura de tela, raciocine sobre a próxima ação, execute-a, capture outro quadro e repita. Esse loop de percepção-pensamento continua até que a tarefa seja concluída ou o agente falhe. Para realmente generalizar, a IA deve perceber seu ambiente, raciocinar sobre seu estado e agir adequadamente para atingir objetivos, não apenas interpretar instantâneos. Já temos macros, bots RPA e scripts de automação, mas eles são fracos e instáveis. Uma ligeira mudança de pixel ou alteração de layout interrompe o fluxo e requer aplicação manual de patches. Eles não podem se adaptar quando algo muda no fluxo de trabalho. Esse é o gargalo. Visão-Linguagem-Ação (VLA) Os agentes VLA da Codec são executados em um loop intuitivo, mas poderoso: perceber, pensar, agir. Em vez de apenas cuspir texto como a maioria dos LLMs, esses agentes veem seu ambiente, decidem o que fazer e executam. Tudo é empacotado em um pipeline unificado, que você pode visualizar em três camadas principais: Visão O agente primeiro percebe seu ambiente através da visão. Para um agente do operador de desktop, isso significa capturar uma captura de tela ou entrada visual do estado atual (por exemplo, uma janela de aplicativo ou caixa de texto). O componente de visão do modelo VLA interpreta essa entrada, lendo o texto na tela e reconhecendo elementos ou objetos da interface. Também conhecido como os olhos do agente. Idioma Então vem o pensamento. Dado o contexto visual (e quaisquer instruções ou objetivos), o modelo analisa qual ação é necessária. Essencialmente, a IA "pensa" na resposta apropriada da mesma forma que uma pessoa faria. A arquitetura VLA mescla visão e linguagem internamente, para que o agente possa, por exemplo, entender que uma caixa de diálogo pop-up está fazendo uma pergunta sim/não. Em seguida, ele decidirá sobre a ação correta (por exemplo, clique em "OK") com base na meta ou prompt. Servindo como o cérebro do agente, mapeando as entradas percebidas para uma ação. Ação Por fim, o agente atua emitindo um comando de controle para o ambiente. Em vez de texto, o modelo VLA gera uma ação (como um clique do mouse, pressionamento de tecla ou chamada de API) que interage diretamente com o sistema. No exemplo da caixa de diálogo, o agente executaria o clique no botão "OK". Isso fecha o ciclo: depois de agir, o agente pode verificar visualmente o resultado e continuar o ciclo perceber-pensar-agir. As ações são o separador de teclas que as transforma de caixas de bate-papo em operadores reais. Casos de uso Como mencionei, devido à arquitetura, o Codec é independente de narrativa. Assim como os LLMs não são limitados pelas saídas textuais que podem produzir, os VLAs não são limitados pelas tarefas que podem concluir. Robótica Em vez de confiar em scripts antigos ou automação imperfeita, os agentes do VLA recebem informações visuais (feed de câmera ou sensores), passam-nas por um modelo de linguagem para planejamento e, em seguida, geram comandos de controle reais para mover ou interagir com o mundo. Basicamente, o robô vê o que está à sua frente, processa instruções como "mova a lata de Pepsi ao lado da laranja", descobre onde está tudo, como se mover sem derrubar nada e faz isso sem a necessidade de codificação. Esta é a mesma classe de sistema que o RT-2 ou PaLM-E do Google. Grandes modelos que mesclam visão e linguagem para criar ações do mundo real. O trabalho de VLA do CogAct é um bom exemplo, o robô verifica uma tabela desordenada, obtém um prompt natural e executa um loop completo: ID do objeto, planejamento de caminho, execução de movimento. Operadores No ambiente de desktop e da web, os agentes do VLA funcionam basicamente como operadores digitais. Eles "veem" a tela por meio de uma captura de tela ou feed ao vivo, executam isso por meio de uma camada de raciocínio construída em um modelo de linguagem para entender a interface do usuário e o prompt da tarefa e, em seguida, executam as ações com controle real do mouse e do teclado, como um humano faria. Esse loop completo, perceber, pensar, agir é executado continuamente. Portanto, o agente não está reagindo apenas uma vez, ele está navegando ativamente na interface, lidando com fluxos de várias etapas sem precisar de scripts codificados. A arquitetura é uma mistura de visão de estilo OCR para ler texto/botões/ícones, raciocínio semântico para decidir o que fazer e uma camada de controle que pode clicar, rolar, digitar, etc. Onde isso se torna realmente interessante é no tratamento de erros. Esses agentes podem refletir após as ações e replanejar se algo não sair como esperado. Ao contrário dos scripts RPA que são interrompidos se uma interface do usuário for ligeiramente alterada, como um botão mudando de posição ou um rótulo sendo renomeado, um agente VLA pode se adaptar ao novo layout usando dicas visuais e compreensão de linguagem. Torna-o muito mais resiliente para automação do mundo real, onde as interfaces mudam constantemente. Algo com o qual eu pessoalmente lutei ao codificar meus próprios bots de pesquisa por meio de ferramentas como o dramaturgo. Jogos Os jogos são um dos casos de uso mais claros em que os agentes do VLA podem brilhar, pensar neles menos como bots e mais como jogadores de IA imersivos. Todo o fluxo é o mesmo, o agente vê a tela do jogo (quadros, menus, prompts de texto), razões sobre o que deve fazer e, em seguida, joga usando entradas de mouse, teclado ou controlador. Não é focado na força bruta, é a IA aprendendo a jogar como um humano faria. Percepção + pensamento + controle, tudo interligado. O projeto SIMA da DeepMind desbloqueou isso combinando um modelo de linguagem de visão com uma camada preditiva e o colocou em jogos como No Man's Sky e Minecraft. Apenas observando a tela e seguindo as instruções, o agente poderia concluir tarefas abstratas como "fazer uma fogueira" encadeando as etapas certas, coletar madeira, encontrar correspondências e usar o inventário. E também não se limitou a apenas um jogo. Ele transferiu esse conhecimento entre diferentes ambientes. Os agentes de jogos VLA não estão presos a um conjunto de regras. O mesmo agente pode se adaptar a mecânicas completamente diferentes, apenas a partir da visão e da linguagem. E como é construído na infraestrutura LLM, ele pode explicar o que está fazendo, seguir instruções em linguagem natural no meio do jogo ou colaborar com os jogadores em tempo real. Não estamos longe de ter companheiros de equipe de IA que se adaptam ao seu estilo de jogo e personalizações, tudo graças ao Codec.
9,19K