Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Was ist $CODEC
Robotik, Operatoren, Gaming?
Alles oben Genannte und mehr.
Die Vision-Language-Action (VLA) von Codec ist ein framework-unabhängiges Modell, das aufgrund seiner einzigartigen Fähigkeit, Fehler im Vergleich zu LLMs zu visualisieren, Dutzende von Anwendungsfällen ermöglicht.
In den letzten 12 Monaten haben wir gesehen, dass LLMs hauptsächlich als Schleifenmechanismen fungieren, die von vordefinierten Daten und Antwortmustern angetrieben werden.
Da sie auf Sprache und Text basieren, haben LLMs eine begrenzte Fähigkeit, über das Fenster des linguistischen Kontexts hinaus zu evolvieren, auf dem sie trainiert wurden. Sie können sensorische Eingaben wie Gesichtsausdrücke oder emotionale Hinweise in Echtzeit nicht interpretieren, da ihr Denken an Sprache und nicht an Wahrnehmung gebunden ist.
Die meisten Agenten kombinieren heute transformerbasierte LLMs mit visuellen Codierern. Sie "sehen" die Benutzeroberfläche durch Screenshots, interpretieren, was auf dem Bildschirm ist, und generieren Aktionssequenzen, Klicks, Tastatureingaben und Scrolls, um Anweisungen zu befolgen und Aufgaben zu erledigen.
Deshalb hat KI bisher noch keine großen Jobkategorien ersetzt: LLMs sehen Screenshots, keine Pixel. Sie verstehen nicht die dynamische visuelle Semantik der Umgebung, sondern nur das, was durch statische Frames lesbar ist.
Ihr typischer Arbeitsablauf ist repetitiv: einen Screenshot erfassen, über die nächste Aktion nachdenken, sie ausführen, dann einen weiteren Frame erfassen und wiederholen. Dieser Wahrnehmen-Denken-Zyklus setzt sich fort, bis die Aufgabe abgeschlossen ist oder der Agent scheitert.
Um wirklich zu verallgemeinern, muss KI ihre Umgebung wahrnehmen, über ihren Zustand nachdenken und angemessen handeln, um Ziele zu erreichen, nicht nur Schnappschüsse interpretieren.
Wir haben bereits Makros, RPA-Bots und Automatisierungsskripte, aber sie sind schwach und instabil. Eine kleine Pixelverschiebung oder Layoutänderung bricht den Fluss und erfordert manuelles Patchen. Sie können sich nicht anpassen, wenn sich etwas im Arbeitsablauf ändert. Das ist der Engpass.
Vision-Language-Action (VLA)
Die VLA-Agenten von Codec arbeiten in einem intuitiven, aber leistungsstarken Zyklus: wahrnehmen, denken, handeln. Anstatt nur Text auszugeben wie die meisten LLMs, sehen diese Agenten ihre Umgebung, entscheiden, was zu tun ist, und führen dann aus. Alles ist in einer einheitlichen Pipeline verpackt, die Sie in drei Kernschichten visualisieren können:
Vision
Der Agent nimmt zuerst seine Umgebung durch Vision wahr. Für einen Desktop-Operator-Agenten bedeutet dies, einen Screenshot oder visuelle Eingaben des aktuellen Zustands (z. B. ein Anwendungsfenster oder ein Textfeld) zu erfassen. Die Vision-Komponente des VLA-Modells interpretiert diese Eingabe, liest den Text auf dem Bildschirm und erkennt Schnittstellenelemente oder Objekte. Also die Augen des Agenten.
Sprache
Dann kommt das Denken. Angesichts des visuellen Kontexts (und aller Anweisungen oder Ziele) analysiert das Modell, welche Aktion erforderlich ist. Im Wesentlichen "denkt" die KI über die angemessene Antwort nach, ähnlich wie es ein Mensch tun würde. Die VLA-Architektur vereint intern Vision und Sprache, sodass der Agent beispielsweise verstehen kann, dass ein Popup-Dialog eine Ja/Nein-Frage stellt. Er wird dann basierend auf dem Ziel oder der Aufforderung die richtige Aktion (z. B. "OK" klicken) entscheiden. Er fungiert als das Gehirn des Agenten, das wahrgenommene Eingaben einer Aktion zuordnet.
Aktion
Schließlich handelt der Agent, indem er einen Steuerbefehl an die Umgebung ausgibt. Anstatt Text zu erzeugen, generiert das VLA-Modell eine Aktion (wie einen Mausklick, eine Tastatureingabe oder einen API-Aufruf), die direkt mit dem System interagiert. Im Beispiel des Dialogs würde der Agent den Klick auf die Schaltfläche "OK" ausführen. Dies schließt den Zyklus: Nach dem Handeln kann der Agent das Ergebnis visuell überprüfen und den Zyklus wahrnehmen-denken-handeln fortsetzen. Aktionen sind der entscheidende Unterschied, der sie von Chatboxen zu echten Operatoren macht.
Anwendungsfälle
Wie ich bereits erwähnt habe, ist Codec aufgrund der Architektur narrativ unabhängig. So wie LLMs nicht durch die textuellen Ausgaben, die sie produzieren können, eingeschränkt sind, sind VLA-Agenten nicht durch die Aufgaben, die sie erledigen können, eingeschränkt.
Robotik
Anstatt sich auf alte Skripte oder unvollkommene Automatisierung zu verlassen, nehmen VLA-Agenten visuelle Eingaben (Kamerafeed oder Sensoren) auf, leiten sie durch ein Sprachmodell zur Planung und geben dann tatsächliche Steuerbefehle aus, um mit der Welt zu interagieren oder sich zu bewegen.
Im Grunde sieht der Roboter, was vor ihm ist, verarbeitet Anweisungen wie "Bewege die Pepsi-Dose neben die Orange", findet heraus, wo alles ist, wie man sich bewegt, ohne etwas umzuwerfen, und tut dies ohne erforderliche Hardcodierung.
Dies ist die gleiche Klasse von Systemen wie Googles RT-2 oder PaLM-E. Große Modelle, die Vision und Sprache kombinieren, um reale Aktionen zu erzeugen. Die VLA-Arbeit von CogAct ist ein gutes Beispiel: Der Roboter scannt einen überfüllten Tisch, erhält eine natürliche Aufforderung und führt einen vollständigen Zyklus aus: Objekt-ID, Pfadplanung, Bewegungsausführung.
Operatoren
In der Desktop- und Webumgebung funktionieren VLA-Agenten im Grunde wie digitale Arbeiter. Sie "sehen" den Bildschirm durch einen Screenshot oder einen Live-Feed, leiten das durch eine Denkschicht, die auf einem Sprachmodell basiert, um sowohl die Benutzeroberfläche als auch die Aufgabenaufforderung zu verstehen, und führen dann die Aktionen mit echter Maus- und Tastaturkontrolle aus, wie es ein Mensch tun würde.
Dieser vollständige Zyklus, wahrnehmen, denken, handeln, läuft kontinuierlich. Der Agent reagiert also nicht nur einmal, sondern navigiert aktiv durch die Benutzeroberfläche und bearbeitet mehrstufige Abläufe, ohne dass Hardcodierte Skripte erforderlich sind. Die Architektur ist eine Mischung aus OCR-ähnlicher Vision, um Text/Schaltflächen/Icons zu lesen, semantischem Denken, um zu entscheiden, was zu tun ist, und einer Steuerebene, die klicken, scrollen, tippen usw. kann.
Wo es wirklich interessant wird, ist im Fehlerhandling. Diese Agenten können nach Aktionen reflektieren und neu planen, wenn etwas nicht wie erwartet verläuft. Im Gegensatz zu RPA-Skripten, die brechen, wenn sich die Benutzeroberfläche leicht ändert, wie z. B. eine Schaltfläche, die ihre Position verschiebt oder ein Label umbenannt wird, kann ein VLA-Agent sich an das neue Layout anpassen, indem er visuelle Hinweise und Sprachverständnis nutzt. Das macht es viel robuster für die Automatisierung in der realen Welt, wo sich Benutzeroberflächen ständig ändern.
Etwas, mit dem ich persönlich gekämpft habe, als ich meine eigenen Forschungsbots mit Tools wie Playwright codiert habe.
Gaming
Gaming ist einer der klarsten Anwendungsfälle, in denen VLA-Agenten glänzen können. Denken Sie weniger an sie als Bots und mehr an immersive KI-Spieler. Der gesamte Ablauf ist derselbe: Der Agent sieht den Spielbildschirm (Frames, Menüs, Textaufforderungen), denkt darüber nach, was er tun soll, und spielt dann mit Maus-, Tastatur- oder Controller-Eingaben.
Es geht nicht um rohe Gewalt, dies ist KI, die lernt, wie man wie ein Mensch spielt. Wahrnehmung + Denken + Kontrolle, alles miteinander verbunden. Das SIMA-Projekt von DeepMind hat dies ermöglicht, indem es ein Vision-Language-Modell mit einer prädiktiven Schicht kombiniert und in Spiele wie No Man’s Sky und Minecraft integriert hat. Nur durch das Beobachten des Bildschirms und das Befolgen von Anweisungen konnte der Agent abstrakte Aufgaben wie "Baue ein Lagerfeuer" abschließen, indem er die richtigen Schritte verknüpfte, Holz sammelte, Streichhölzer fand und das Inventar nutzte. Und es war nicht auf nur ein Spiel beschränkt. Es übertrug dieses Wissen zwischen verschiedenen Umgebungen.
VLA-Gaming-Agenten sind nicht auf ein Regelwerk festgelegt. Der gleiche Agent kann sich an völlig unterschiedliche Mechaniken anpassen, nur durch Vision und Sprachverankerung. Und da es auf der Infrastruktur von LLMs basiert, kann es erklären, was es tut, natürliche Sprachbefehle während des Spiels befolgen oder in Echtzeit mit Spielern zusammenarbeiten.
Wir sind nicht weit davon entfernt, KI-Teamkollegen zu haben, die sich an Ihren Spielstil und Ihre Personalisierungen anpassen, alles dank Codec.

9,18K
Top
Ranking
Favoriten