Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qu'est-ce que $CODEC
Robotique, Opérateurs, Jeux ?
Tout cela et plus encore.
La vision-langage-action (VLA) de Codec est un modèle indépendant du cadre, permettant des dizaines de cas d'utilisation grâce à sa capacité unique à visualiser les erreurs par rapport aux LLM.
Au cours des 12 derniers mois, nous avons constaté que les LLM fonctionnent principalement comme des mécanismes de boucle, alimentés par des données et des modèles de réponse prédéfinis.
Parce qu'ils sont construits sur la parole et le texte, les LLM ont une capacité limitée à évoluer au-delà de la fenêtre de contexte linguistique sur laquelle ils sont formés. Ils ne peuvent pas interpréter les entrées sensorielles, comme les expressions faciales ou les indices émotionnels en temps réel, car leur raisonnement est lié à la langue, pas à la perception.
La plupart des agents aujourd'hui combinent des LLM basés sur des transformateurs avec des encodeurs visuels. Ils "voient" l'interface à travers des captures d'écran, interprètent ce qui est à l'écran et génèrent des séquences d'actions, de clics, de frappes au clavier, de défilements pour suivre des instructions et accomplir des tâches.
C'est pourquoi l'IA n'a pas encore remplacé de grandes catégories d'emplois : les LLM voient des captures d'écran, pas des pixels. Ils ne comprennent pas la sémantique visuelle dynamique de l'environnement, seulement ce qui est lisible à travers des images statiques.
Leur flux de travail typique est répétitif : capturer une capture d'écran, raisonner sur la prochaine action, l'exécuter, puis capturer un autre cadre et répéter. Cette boucle percevoir-penser continue jusqu'à ce que la tâche soit terminée ou que l'agent échoue.
Pour véritablement généraliser, l'IA doit percevoir son environnement, raisonner sur son état et agir de manière appropriée pour atteindre des objectifs, pas seulement interpréter des instantanés.
Nous avons déjà des macros, des bots RPA et des scripts d'automatisation, mais ils sont faibles et instables. Un léger déplacement de pixel ou un changement de mise en page casse le flux et nécessite un patch manuel. Ils ne peuvent pas s'adapter lorsque quelque chose change dans le flux de travail. C'est le goulet d'étranglement.
Vision-Language-Action (VLA)
Les agents VLA de Codec fonctionnent sur une boucle intuitive mais puissante : percevoir, penser, agir. Au lieu de simplement cracher du texte comme la plupart des LLM, ces agents voient leur environnement, décident quoi faire puis exécutent. Tout est emballé dans un pipeline unifié, que vous pouvez visualiser en trois couches principales :
Vision
L'agent perçoit d'abord son environnement par la vision. Pour un agent Opérateur de bureau, cela signifie capturer une capture d'écran ou une entrée visuelle de l'état actuel (par exemple, une fenêtre d'application ou une zone de texte). Le composant vision du modèle VLA interprète cette entrée, lit le texte à l'écran et reconnaît les éléments ou objets de l'interface. Autrement dit, les yeux de l'agent.
Langage
Puis vient la réflexion. Étant donné le contexte visuel (et toutes instructions ou objectifs), le modèle analyse quelle action est requise. Essentiellement, l'IA "pense" à la réponse appropriée tout comme une personne le ferait. L'architecture VLA fusionne vision et langage en interne, de sorte que l'agent peut, par exemple, comprendre qu'une boîte de dialogue contextuelle pose une question oui/non. Il décidera alors de l'action correcte (par exemple, cliquer sur "OK") en fonction de l'objectif ou de l'invite. Servant de cerveau à l'agent, mappant les entrées perçues à une action.
Action
Enfin, l'agent agit en émettant une commande de contrôle à l'environnement. Au lieu de texte, le modèle VLA génère une action (comme un clic de souris, une frappe au clavier ou un appel API) qui interagit directement avec le système. Dans l'exemple de la boîte de dialogue, l'agent exécuterait le clic sur le bouton "OK". Cela ferme la boucle : après avoir agi, l'agent peut vérifier visuellement le résultat et continuer le cycle percevoir–penser–agir. Les actions sont le séparateur clé qui les transforme de simples boîtes de chat en véritables opérateurs.
Cas d'utilisation
Comme je l'ai mentionné, en raison de l'architecture, Codec est narrativement agnostique. Tout comme les LLM ne sont pas confinés par les sorties textuelles qu'ils peuvent produire, les VLA ne sont pas confinés par les tâches qu'ils peuvent accomplir.
Robotique
Au lieu de s'appuyer sur de vieux scripts ou une automatisation imparfaite, les agents VLA prennent des entrées visuelles (flux de caméra ou capteurs), les passent à travers un modèle de langage pour la planification, puis émettent de réelles commandes de contrôle pour se déplacer ou interagir avec le monde.
En gros, le robot voit ce qui est devant lui, traite des instructions comme "déplacer la canette de Pepsi à côté de l'orange", détermine où tout se trouve, comment se déplacer sans renverser quoi que ce soit, et le fait sans codage nécessaire.
C'est la même classe de système que le RT-2 ou PaLM-E de Google. De grands modèles qui fusionnent vision et langage pour créer des actions dans le monde réel. Le travail VLA de CogAct est un bon exemple, le robot scanne une table en désordre, reçoit une invite naturelle et exécute une boucle complète : identification d'objet, planification de chemin, exécution de mouvement.
Opérateurs
Dans l'environnement de bureau et web, les agents VLA fonctionnent essentiellement comme des travailleurs numériques. Ils "voient" l'écran à travers une capture d'écran ou un flux en direct, passent cela à travers une couche de raisonnement construite sur un modèle de langage pour comprendre à la fois l'UI et l'invite de tâche, puis exécutent les actions avec un contrôle réel de la souris et du clavier, comme un humain le ferait.
Cette boucle complète, percevoir, penser, agir, fonctionne en continu. Donc l'agent ne réagit pas juste une fois, il navigue activement dans l'interface, gérant des flux d'étapes multiples sans avoir besoin de scripts codés en dur. L'architecture est un mélange de vision de style OCR pour lire le texte/boutons/icônes, de raisonnement sémantique pour décider quoi faire, et d'une couche de contrôle qui peut cliquer, faire défiler, taper, etc.
Là où cela devient vraiment intéressant, c'est dans la gestion des erreurs. Ces agents peuvent réfléchir après les actions et replanifier si quelque chose ne se passe pas comme prévu. Contrairement aux scripts RPA qui se cassent si une interface utilisateur change légèrement, comme un bouton changeant de position ou une étiquette étant renommée, un agent VLA peut s'adapter à la nouvelle mise en page en utilisant des indices visuels et une compréhension du langage. Cela le rend beaucoup plus résilient pour l'automatisation dans le monde réel où les interfaces changent constamment.
C'est quelque chose avec lequel j'ai personnellement eu du mal en codant mes propres bots de recherche à travers des outils comme playwright.
Jeux
Le jeu est l'un des cas d'utilisation les plus clairs où les agents VLA peuvent briller, pensez à eux moins comme des bots et plus comme des joueurs IA immersifs. Tout le flux est le même, l'agent voit l'écran de jeu (images, menus, invites de texte), raisonne sur ce qu'il est censé faire, puis joue en utilisant des entrées de souris, de clavier ou de manette.
Ce n'est pas axé sur la force brute, c'est une IA apprenant à jouer comme un humain le ferait. Perception + pensée + contrôle, le tout lié ensemble. Le projet SIMA de DeepMind a débloqué cela en combinant un modèle de vision-langage avec une couche prédictive et l'a intégré dans des jeux comme No Man's Sky et Minecraft. En regardant simplement l'écran et en suivant les instructions, l'agent pouvait accomplir des tâches abstraites comme "construire un feu de camp" en enchaînant les bonnes étapes, rassembler du bois, trouver des allumettes et utiliser l'inventaire. Et il n'était pas limité à un seul jeu non plus. Il a transféré cette connaissance entre différents environnements.
Les agents de jeu VLA ne sont pas enfermés dans un seul ensemble de règles. Le même agent peut s'adapter à des mécaniques complètement différentes, juste à partir de la vision et de la base linguistique. Et parce qu'il est construit sur une infrastructure LLM, il peut expliquer ce qu'il fait, suivre des instructions en langage naturel en cours de jeu, ou collaborer avec des joueurs en temps réel.
Nous ne sommes pas loin d'avoir des coéquipiers IA qui s'adaptent à votre style de jeu et à vos personnalisations, tout cela grâce à Codec.

9,19K
Meilleurs
Classement
Favoris