¿Qué es $CODEC ¿Robótica, operadores, juegos? Todo lo anterior y más. El códec vision-language-action (VLA) es un modelo independiente del marco, que permite docenas de casos de uso debido a su capacidad única para visualizar errores en comparación con los LLM. En los últimos 12 meses, hemos visto que los LLM funcionan principalmente como mecanismos de bucle, impulsados por datos predefinidos y patrones de respuesta. Debido a que se basan en el habla y el texto, los LLM tienen una capacidad limitada para evolucionar más allá de la ventana de contexto lingüístico en la que se entrenan. No pueden interpretar la información sensorial, como las expresiones faciales o las señales emocionales en tiempo real, ya que su razonamiento está ligado al lenguaje, no a la percepción. Hoy en día, la mayoría de los agentes combinan LLM basados en transformadores con codificadores visuales. "Ven" la interfaz a través de capturas de pantalla, interpretan lo que está en pantalla y generan secuencias de acciones, clics, pulsaciones de teclas, desplazamientos para seguir instrucciones y completar tareas. Esta es la razón por la que la IA aún no ha reemplazado grandes categorías de trabajos: los LLM ven capturas de pantalla, no píxeles. No entienden la semántica visual dinámica del entorno, solo lo que es legible a través de fotogramas estáticos. Su flujo de trabajo típico es repetitivo: capturar una captura de pantalla, razonar sobre la siguiente acción, ejecutarla, luego capturar otro fotograma y repetir. Este bucle de percepción-pensamiento continúa hasta que se completa la tarea o se produce un error en el agente. Para generalizar realmente, la IA debe percibir su entorno, razonar sobre su estado y actuar adecuadamente para lograr los objetivos, no solo interpretar instantáneas. Ya tenemos macros, bots de RPA y scripts de automatización, pero son débiles e inestables. Un ligero desplazamiento de píxeles o un cambio de diseño interrumpe el flujo y requiere la aplicación manual de parches. No pueden adaptarse cuando algo cambia en el flujo de trabajo. Ese es el cuello de botella. Visión-Lenguaje-Acción (VLA) Los agentes VLA de Codec se ejecutan en un bucle intuitivo pero potente: percibir, pensar, actuar. En lugar de limitarse a escupir texto como la mayoría de los LLM, estos agentes ven su entorno, deciden qué hacer y luego lo ejecutan. Todo está empaquetado en una canalización unificada, que se puede visualizar en tres capas principales: Visión El agente percibe primero su entorno a través de la visión. Para un agente operador de escritorio, esto significa capturar una captura de pantalla o una entrada visual del estado actual (por ejemplo, una ventana de aplicación o un cuadro de texto). El componente de visión del modelo VLA interpreta esta entrada, leyendo el texto en pantalla y reconociendo elementos u objetos de la interfaz. Es decir, los ojos del agente. Idioma Luego viene el pensamiento. Dado el contexto visual (y las instrucciones u objetivos), el modelo analiza qué acción se requiere. Esencialmente, la IA "piensa" en la respuesta apropiada como lo haría una persona. La arquitectura VLA fusiona la visión y el lenguaje internamente, por lo que el agente puede, por ejemplo, entender que un cuadro de diálogo emergente hace una pregunta de sí/no. A continuación, decidirá la acción correcta (por ejemplo, haga clic en "Aceptar") en función del objetivo o la indicación. Sirve como el cerebro del agente, mapeando las entradas percibidas a una acción. Acción Por último, el agente actúa enviando un comando de control al entorno. En lugar de texto, el modelo VLA genera una acción (como un clic del mouse, una pulsación de tecla o una llamada a la API) que interactúa directamente con el sistema. En el ejemplo del cuadro de diálogo, el agente ejecutaría el clic en el botón "Aceptar". Esto cierra el ciclo: después de actuar, el agente puede comprobar visualmente el resultado y continuar el ciclo percibir-pensar-actuar. Las acciones son el separador de claves, lo que las convierte de cuadros de chat a operadores reales. Casos de uso Como mencioné, debido a la arquitectura, Codec es independiente de la narrativa. Al igual que los LLM no están limitados por las salidas textuales que pueden producir, los VLA no están limitados por las tareas que pueden completar. Robótica En lugar de depender de scripts antiguos o de una automatización imperfecta, los agentes de VLA reciben información visual (alimentación de la cámara o sensores), la pasan a través de un modelo de lenguaje para la planificación y, a continuación, emiten comandos de control reales para moverse o interactuar con el mundo. Básicamente, el robot ve lo que está frente a él, procesa instrucciones como "mover la lata de Pepsi al lado de la naranja", averigua dónde está todo, cómo moverse sin derribar nada, y lo hace sin necesidad de codificación. Esta es la misma clase de sistema que el RT-2 o PaLM-E de Google. Grandes modelos que fusionan visión y lenguaje para crear acciones del mundo real. El trabajo VLA de CogAct es un buen ejemplo, el robot escanea una mesa desordenada, recibe un aviso natural y ejecuta un bucle completo: ID de objeto, planificación de rutas, ejecución de movimientos. Operadores En el entorno de escritorio y web, los agentes de VLA funcionan básicamente como trabajadores digitales. "Ve" la pantalla a través de una captura de pantalla o una transmisión en vivo, la ejecutan a través de una capa de razonamiento construida sobre un modelo de lenguaje para comprender tanto la interfaz de usuario como el mensaje de tarea, luego ejecutan las acciones con el control real del mouse y el teclado, como lo haría un humano. Este bucle completo, percibir, pensar, actuar se ejecuta continuamente. Por lo tanto, el agente no solo reacciona una vez, sino que navega activamente por la interfaz, manejando flujos de múltiples pasos sin necesidad de scripts codificados. La arquitectura es una mezcla de visión de estilo OCR para leer texto/botones/iconos, razonamiento semántico para decidir qué hacer y una capa de control que puede hacer clic, desplazarse, escribir, etc. Donde esto se vuelve realmente interesante es en el manejo de errores. Estos agentes pueden reflexionar sobre las acciones posteriores y replanificar si algo no sale como se esperaba. A diferencia de los scripts de RPA que se rompen si una interfaz de usuario cambia ligeramente, como un botón que cambia de posición o una etiqueta que cambia de nombre, un agente de VLA puede adaptarse al nuevo diseño utilizando señales visuales y comprensión del lenguaje. Lo hace mucho más resistente para la automatización del mundo real, donde las interfaces cambian constantemente. Algo con lo que personalmente he luchado al codificar mis propios bots de investigación a través de herramientas como Playwright. Juego Los videojuegos son uno de los casos de uso más claros en los que los agentes de VLA pueden brillar, piense en ellos menos como bots y más como jugadores de IA inmersivos. Todo el flujo es el mismo, el agente ve la pantalla del juego (marcos, menús, indicaciones de texto), razona sobre lo que se supone que debe hacer y luego juega con las entradas del mouse, el teclado o el controlador. No se centra en la fuerza bruta, se trata de una IA que aprende a jugar como lo haría un humano. Percepción + pensamiento + control, todo unido. El proyecto SIMA de DeepMind ha desbloqueado esto combinando un modelo de lenguaje de visión con una capa predictiva y lo ha lanzado en juegos como No Man's Sky y Minecraft. Con solo mirar la pantalla y seguir instrucciones, el agente podría completar tareas abstractas como "construir una fogata" encadenando los pasos correctos, recolectar madera, encontrar fósforos y usar el inventario. Y no se limitó a un solo juego. Transfirió ese conocimiento entre diferentes entornos. Los agentes de juego de VLA no están limitados a un conjunto de reglas. El mismo agente puede adaptarse a mecánicas completamente diferentes, solo a partir de la visión y la base del lenguaje. Y debido a que se basa en la infraestructura de LLM, puede explicar lo que está haciendo, seguir instrucciones en lenguaje natural a mitad del juego o colaborar con los jugadores en tiempo real. No estamos lejos de tener compañeros de equipo de IA que se adapten a tu estilo de juego y personalizaciones, todo gracias a Codec.
9.18K