Fais-toi juste une faveur et lis l'explication de Trissy sur pourquoi @codecopenflow est l'un des meilleurs paris pour les opérateurs d'IA. OpenAI vient de sortir son agent Operators, donc il est clair que les grands acteurs travaillent également sur les VLA. Toujours à haut risque, mais la stratosphère est le putain de plafond pour celui-ci.
Trissy
Trissy18 juil., 16:10
OpenAI vient de confirmer ma thèse étoile du nord pour l'IA aujourd'hui en lançant leur agent opérateur. Non seulement c'était ma thèse directrice pour $CODEC, mais aussi pour chaque autre investissement en IA que j'ai réalisé, y compris ceux du début de l'année pendant la folie de l'IA. Il y a eu beaucoup de discussions avec Codec concernant la robotique, bien que ce secteur ait bientôt sa propre narration, la raison sous-jacente pour laquelle j'étais si optimiste sur Codec depuis le premier jour est due à la façon dont son architecture alimente les agents opérateurs. Les gens sous-estiment encore combien de parts de marché sont en jeu en construisant des logiciels qui fonctionnent de manière autonome, surpassant les travailleurs humains sans avoir besoin de rappels constants ou de supervision. J'ai vu beaucoup de comparaisons avec $NUIT. Tout d'abord, je tiens à dire que je suis un grand fan de ce que Nuit construit et je ne souhaite que leur succès. Si vous tapez "nuit" dans mon telegram, vous verrez qu'en avril, j'ai dit que si je devais détenir une seule pièce pendant plusieurs mois, ce serait Nuit en raison de ma thèse opérateur. Nuit était le projet opérateur le plus prometteur sur le papier, mais après des recherches approfondies, j'ai constaté que leur architecture manquait de la profondeur nécessaire pour justifier un investissement majeur ou mettre ma réputation derrière elle. Cela dit, j'étais déjà conscient des lacunes architecturales dans les équipes d'agents opérateurs existantes et je cherchais activement un projet qui y remédierait. Peu après, Codec est apparu (merci à @0xdetweiler d'avoir insisté pour que je les examine de plus près) et voici la différence entre les deux : $CODEC vs $NUIT L'architecture de Codec est construite sur trois couches : Machine, Système et Intelligence, qui séparent l'infrastructure, l'interface environnementale et la logique IA. Chaque agent opérateur dans Codec fonctionne dans sa propre VM ou conteneur isolé, permettant une performance presque native et une isolation des pannes. Ce design en couches signifie que les composants peuvent évoluer ou se développer indépendamment sans casser le système. L'architecture de Nuit prend un chemin différent en étant plus monolithique. Leur pile tourne autour d'un agent de navigateur web spécialisé qui combine parsing, raisonnement IA et action. Cela signifie qu'ils analysent profondément les pages web en données structurées pour que l'IA puisse les consommer et s'appuient sur le traitement cloud pour les tâches IA lourdes. L'approche de Codec d'intégrer un modèle Vision-Language-Action (VLA) léger dans chaque agent signifie qu'il peut fonctionner entièrement localement. Ce qui ne nécessite pas de ping constant vers le cloud pour des instructions, éliminant la latence et évitant la dépendance à la disponibilité et à la bande passante. L'agent de Nuit traite les tâches en convertissant d'abord les pages web en un format sémantique, puis en utilisant un cerveau LLM pour déterminer quoi faire, ce qui s'améliore avec le temps grâce à l'apprentissage par renforcement. Bien que cela soit efficace pour l'automatisation web, ce flux dépend d'un traitement IA lourd côté cloud et de structures de page prédéfinies. L'intelligence locale de Codec signifie que les décisions se prennent plus près des données, réduisant les frais généraux et rendant le système plus stable face aux changements inattendus (pas de scripts fragiles ou d'hypothèses DOM). Les opérateurs de Codec suivent une boucle continue de perception–réflexion–action. La couche machine diffuse l'environnement (par exemple, un flux d'application en direct ou de robot) à la couche d'intelligence via les canaux optimisés de la couche système, donnant à l'IA des "yeux" sur l'état actuel. Le modèle VLA de l'agent interprète ensuite les visuels et les instructions ensemble pour décider d'une action, que la couche système exécute par le biais d'événements clavier/souris ou de contrôle de robot. Cette boucle intégrée signifie qu'elle s'adapte aux événements en direct, même si l'interface utilisateur change, vous ne casserez pas le flux. Pour mettre tout cela dans une analogie plus simple, pensez aux opérateurs de Codec comme à un employé autonome qui s'adapte aux surprises au travail. L'agent de Nuit est comme un employé qui doit faire une pause, décrire la situation à un superviseur au téléphone et attendre des instructions. Sans trop entrer dans un trou technique, cela devrait vous donner une idée générale sur pourquoi j'ai choisi Codec comme mon pari principal sur les opérateurs. Oui, Nuit a le soutien de YC, une équipe solide et un GitHub de niveau S. Bien que l'architecture de Codec ait été construite avec l'évolutivité horizontale à l'esprit, ce qui signifie que vous pouvez déployer des milliers d'agents en parallèle sans mémoire partagée ni contexte d'exécution entre les agents. L'équipe de Codec n'est pas non plus composée de développeurs moyens. Leur architecture VLA ouvre une multitude de cas d'utilisation qui n'étaient pas possibles avec les modèles d'agents précédents en raison de la vision à travers les pixels, pas les captures d'écran. Je pourrais continuer, mais je vais garder cela pour de futurs posts.
1,91K