O que é $CODEC Robótica, Operadores, Jogos? Tudo isso e mais. A visão-linguagem-ação (VLA) da Codec é um modelo independente de framework, permitindo dezenas de casos de uso devido à sua capacidade única de visualizar erros em comparação com os LLMs. Nos últimos 12 meses, vimos que os LLMs funcionam principalmente como mecanismos de looping, impulsionados por dados e padrões de resposta predefinidos. Como são construídos com base em fala e texto, os LLMs têm uma capacidade limitada de evoluir além da janela de contexto linguístico em que foram treinados. Eles não conseguem interpretar entradas sensoriais, como expressões faciais ou pistas emocionais em tempo real, pois seu raciocínio está vinculado à linguagem, não à percepção. A maioria dos agentes hoje combina LLMs baseados em transformadores com codificadores visuais. Eles “veem” a interface através de capturas de tela, interpretam o que está na tela e geram sequências de ações, cliques, pressionamentos de teclas e rolagens para seguir instruções e completar tarefas. É por isso que a IA ainda não substituiu grandes categorias de empregos: os LLMs veem capturas de tela, não pixels. Eles não entendem a semântica visual dinâmica do ambiente, apenas o que é legível através de quadros estáticos. Seu fluxo de trabalho típico é repetitivo: capturar uma captura de tela, raciocinar sobre a próxima ação, executá-la, depois capturar outro quadro e repetir. Este ciclo de perceber-pensar continua até que a tarefa seja concluída ou o agente falhe. Para realmente generalizar, a IA deve perceber seu ambiente, raciocinar sobre seu estado e agir de forma apropriada para alcançar objetivos, não apenas interpretar instantâneas. Já temos macros, bots de RPA e scripts de automação, mas eles são fracos e instáveis. Um pequeno deslocamento de pixel ou mudança de layout quebra o fluxo e requer correção manual. Eles não conseguem se adaptar quando algo muda no fluxo de trabalho. Esse é o gargalo. Visão-Linguagem-Ação (VLA) Os agentes VLA da Codec operam em um loop intuitivo, mas poderoso: perceber, pensar, agir. Em vez de apenas gerar texto como a maioria dos LLMs, esses agentes veem seu ambiente, decidem o que fazer e, em seguida, executam. Tudo isso é embalado em um único pipeline unificado, que você pode visualizar em três camadas principais: Visão O agente primeiro percebe seu ambiente através da visão. Para um agente Operador de desktop, isso significa capturar uma captura de tela ou entrada visual do estado atual (por exemplo, uma janela de aplicativo ou caixa de texto). O componente de visão do modelo VLA interpreta essa entrada, lendo o texto na tela e reconhecendo elementos ou objetos da interface. Ou seja, os olhos do agente. Linguagem Então vem o pensamento. Dado o contexto visual (e quaisquer instruções ou objetivos), o modelo analisa qual ação é necessária. Essencialmente, a IA “pensa” sobre a resposta apropriada, assim como uma pessoa faria. A arquitetura VLA funde visão e linguagem internamente, para que o agente possa, por exemplo, entender que um diálogo pop-up está fazendo uma pergunta de sim/não. Ele então decidirá sobre a ação correta (por exemplo, clicar em “OK”) com base no objetivo ou prompt. Servindo como o cérebro do agente, mapeando entradas percebidas para uma ação. Ação Finalmente, o agente age emitindo um comando de controle para o ambiente. Em vez de texto, o modelo VLA gera uma ação (como um clique do mouse, pressionamento de tecla ou chamada de API) que interage diretamente com o sistema. No exemplo do diálogo, o agente executaria o clique no botão “OK”. Isso fecha o ciclo: após agir, o agente pode verificar visualmente o resultado e continuar o ciclo perceber–pensar–agir. As ações são o separador chave que os transforma de caixas de chat em operadores reais. Casos de Uso Como mencionei, devido à arquitetura, a Codec é narrativa independente. Assim como os LLMs não estão confinados ao que podem produzir como saídas textuais, os VLA não estão confinados ao que podem completar como tarefas. Robótica Em vez de depender de scripts antigos ou automação imperfeita, os agentes VLA recebem entrada visual (fluxo de câmera ou sensores), passam por um modelo de linguagem para planejamento e, em seguida, emitem comandos de controle reais para mover ou interagir com o mundo. Basicamente, o robô vê o que está à sua frente, processa instruções como “mova a lata de Pepsi ao lado da laranja”, descobre onde tudo está, como se mover sem derrubar nada e faz isso sem necessidade de codificação rígida. Este é o mesmo tipo de sistema que o RT-2 ou PaLM-E do Google. Grandes modelos que fundem visão e linguagem para criar ações no mundo real. O trabalho VLA da CogAct é um bom exemplo, o robô escaneia uma mesa bagunçada, recebe um prompt natural e executa um ciclo completo: identificação de objeto, planejamento de caminho, execução de movimento. Operadores No ambiente de desktop e web, os agentes VLA funcionam basicamente como trabalhadores digitais. Eles “veem” a tela através de uma captura de tela ou feed ao vivo, executam isso através de uma camada de raciocínio construída em um modelo de linguagem para entender tanto a interface do usuário quanto o prompt da tarefa, e então executam as ações com controle real do mouse e do teclado, como um humano faria. Este ciclo completo, perceber, pensar, agir, roda continuamente. Portanto, o agente não está apenas reagindo uma vez, ele está ativamente navegando pela interface, lidando com fluxos de múltiplos passos sem precisar de scripts codificados rigidamente. A arquitetura é uma mistura de visão estilo OCR para ler texto/botões/ícones, raciocínio semântico para decidir o que fazer e uma camada de controle que pode clicar, rolar, digitar, etc. Onde isso se torna realmente interessante é no tratamento de erros. Esses agentes podem refletir após as ações e replanejar se algo não ocorrer como esperado. Ao contrário dos scripts de RPA que quebram se uma interface mudar ligeiramente, como um botão mudando de posição ou um rótulo sendo renomeado, um agente VLA pode se adaptar ao novo layout usando pistas visuais e compreensão da linguagem. Isso torna a automação do mundo real muito mais resiliente, onde as interfaces mudam constantemente. Algo com que eu pessoalmente lutei ao codificar meus próprios bots de pesquisa através de ferramentas como o playwright. Jogos Os jogos são um dos casos de uso mais claros onde os agentes VLA podem brilhar, pense neles menos como bots e mais como jogadores de IA imersivos. Todo o fluxo é o mesmo, o agente vê a tela do jogo (quadros, menus, prompts de texto), raciocina sobre o que deve fazer e, em seguida, joga usando entradas de mouse, teclado ou controle. Não se concentra na força bruta, esta é a IA aprendendo a jogar como um humano faria. Percepção + pensamento + controle, tudo interligado. O projeto SIMA da DeepMind desbloqueou isso ao combinar um modelo de visão-linguagem com uma camada preditiva e inseri-lo em jogos como No Man’s Sky e Minecraft. Apenas assistindo à tela e seguindo instruções, o agente poderia completar tarefas abstratas como “construir uma fogueira” encadeando os passos corretos, coletar madeira, encontrar fósforos e usar o inventário. E não estava limitado a apenas um jogo. Ele transferiu esse conhecimento entre diferentes ambientes. Os agentes de jogos VLA não estão presos a um único conjunto de regras. O mesmo agente pode se adaptar a mecânicas completamente diferentes, apenas a partir da fundamentação visual e linguística. E como é construído sobre a infraestrutura de LLM, pode explicar o que está fazendo, seguir instruções em linguagem natural durante o jogo ou colaborar com jogadores em tempo real. Não estamos longe de ter companheiros de IA que se adaptam ao seu estilo de jogo e personalizações, tudo graças à Codec.
9,19K