Tu dir einfach einen Gefallen und lies Trissys Erklärung, warum @codecopenflow eine der besten Wetten für KI-Betreiber ist. OpenAI hat gerade ihren Operators-Agenten veröffentlicht, also ist klar, dass die Großen auch an VLAs arbeiten. Immer noch ein hohes Risiko, aber die Stratosphäre ist die verdammte Decke für dieses Projekt.
Trissy
Trissy18. Juli, 16:10
OpenAI hat heute meine nordsternartige These für KI mit der Veröffentlichung ihres Operator-Agenten bestätigt. Nicht nur war dies meine leitende These für $CODEC, sondern auch für jede andere KI-Investition, die ich getätigt habe, einschließlich derjenigen aus dem frühen Jahr während des KI-Wahns. Es gab viele Diskussionen mit Codec in Bezug auf Robotik. Während dieses Segment bald seine eigene Erzählung haben wird, ist der zugrunde liegende Grund, warum ich von Anfang an so optimistisch gegenüber Codec war, die Art und Weise, wie seine Architektur Operator-Agenten antreibt. Die Leute unterschätzen immer noch, wie viel Marktanteil auf dem Spiel steht, wenn man Software entwickelt, die autonom läuft und menschliche Arbeiter ohne ständige Aufforderungen oder Aufsicht übertrifft. Ich habe viele Vergleiche zu $NUIT gesehen. Zunächst möchte ich sagen, dass ich ein großer Fan von dem bin, was Nuit aufbaut, und wünsche ihnen nur Erfolg. Wenn du "nuit" in meinen Telegramm-Chat eingibst, wirst du sehen, dass ich im April gesagt habe, dass ich, wenn ich eine Münze für mehrere Monate halten müsste, Nuit aufgrund meiner Operator-These gewählt hätte. Nuit war das vielversprechendste Operator-Projekt auf dem Papier, aber nach umfangreicher Recherche stellte ich fest, dass ihre Architektur die Tiefe fehlte, um eine große Investition zu rechtfertigen oder meinen Ruf dahinterzustellen. In Anbetracht dessen war ich mir bereits der architektonischen Lücken in bestehenden Operator-Agenten-Teams bewusst und suchte aktiv nach einem Projekt, das diese ansprach. Kurz nachdem Codec auftauchte (danke an @0xdetweiler, der darauf bestand, dass ich tiefer in sie eintauche), ist dies der Unterschied zwischen den beiden: $CODEC vs $NUIT Die Architektur von Codec ist über drei Schichten aufgebaut: Maschine, System und Intelligenz, die Infrastruktur, Umgebungsinterface und KI-Logik trennen. Jeder Operator-Agent in Codec läuft in seiner eigenen isolierten VM oder Container, was nahezu native Leistung und Fehlertoleranz ermöglicht. Dieses geschichtete Design bedeutet, dass Komponenten unabhängig skalieren oder sich weiterentwickeln können, ohne das System zu brechen. Die Architektur von Nuit verfolgt einen anderen Ansatz, indem sie monolithischer ist. Ihr Stack dreht sich um einen spezialisierten Webbrowser-Agenten, der Parsing, KI-Argumentation und Aktionen kombiniert. Das bedeutet, dass sie Webseiten tief in strukturierte Daten für die KI umwandeln und auf Cloud-Verarbeitung für schwere KI-Aufgaben angewiesen sind. Der Ansatz von Codec, ein leichtgewichtiges Vision-Language-Action (VLA)-Modell in jeden Agenten einzubetten, bedeutet, dass es vollständig lokal laufen kann. Dies erfordert kein ständiges Pingen zur Cloud für Anweisungen, wodurch Latenz verringert und Abhängigkeiten von Verfügbarkeit und Bandbreite vermieden werden. Der Agent von Nuit verarbeitet Aufgaben, indem er zunächst Webseiten in ein semantisches Format umwandelt und dann ein LLM-Gehirn verwendet, um herauszufinden, was zu tun ist, was sich im Laufe der Zeit mit verstärkendem Lernen verbessert. Während dies für die Webautomatisierung effektiv ist, hängt dieser Ablauf von schwerer KI-Verarbeitung in der Cloud und vordefinierten Seitenstrukturen ab. Die lokale Geräteintelligenz von Codec bedeutet, dass Entscheidungen näher an den Daten getroffen werden, was den Overhead reduziert und das System stabiler gegenüber unerwarteten Änderungen macht (keine fragilen Skripte oder DOM-Annahmen). Die Operatoren von Codec folgen einem kontinuierlichen Wahrnehmen-Denken-Handeln-Zyklus. Die Maschinenschicht streamt die Umgebung (z. B. einen Live-App- oder Roboter-Feed) zur Intelligenzschicht über die optimierten Kanäle der Systemsicht, wodurch die KI "Augen" auf den aktuellen Zustand hat. Das VLA-Modell des Agenten interpretiert dann die visuellen und instruktiven Informationen zusammen, um eine Aktion zu entscheiden, die die Systemsicht durch Tastatur-/Mausereignisse oder Robotersteuerung ausführt. Dieser integrierte Zyklus bedeutet, dass er sich an Live-Ereignisse anpasst; selbst wenn sich die Benutzeroberfläche ändert, wird der Fluss nicht unterbrochen. Um all dies in einer einfacheren Analogie zu erklären, denke an die Operatoren von Codec wie an einen selbständigen Mitarbeiter, der sich an Überraschungen im Job anpasst. Der Agent von Nuit ist wie ein Mitarbeiter, der anhalten muss, die Situation einem Vorgesetzten am Telefon beschreiben muss und auf Anweisungen warten muss. Ohne zu sehr in technische Details abzutauchen, sollte dies dir eine grobe Vorstellung davon geben, warum ich Codec als meine Hauptwette auf Operatoren gewählt habe. Ja, Nuit hat Unterstützung von YC, ein starkes Team und ein S-Rang-GitHub. Obwohl die Architektur von Codec mit horizontaler Skalierung im Hinterkopf entwickelt wurde, was bedeutet, dass du Tausende von Agenten parallel ohne gemeinsamen Speicher oder Ausführungskontext zwischen den Agenten bereitstellen kannst. Das Team von Codec sind auch keine durchschnittlichen Entwickler. Ihre VLA-Architektur eröffnet eine Vielzahl von Anwendungsfällen, die mit früheren Agentenmodellen nicht möglich waren, da sie durch Pixel und nicht durch Screenshots sehen.
1,91K