自分にお願いして、@codecopenflow が AI オペレーターにとって最良の選択肢の 1 つである理由についての Trissy の説明を読んでください OpenAI は Operators エージェントをリリースしたばかりなので、大手企業も VLA に取り組んでいることは明らかです それでもリスクは高いですが、成層圏はこれにとってのフーキングルーフです
Trissy
Trissy7月18日 16:10
OpenAI は本日、オペレーター エージェントをリリースすることで、AI に関する私の北極星の論文を確認しました。 これは$CODECの指針であるだけでなく、今年初めの AI マニアの時期の投資を含め、私が行った他のすべての AI 投資でした。 ロボティクスに関してはコーデックと多くの議論がなされてきましたが、その分野は間もなく独自の物語を持つでしょうが、私が初日からコーデックに強気だった根本的な理由は、そのアーキテクチャがオペレーターエージェントをどのように強化するかによるものです。 人々は、絶え間ないプロンプトや監視を必要とせずに、自律的に実行され、人間の労働者よりも優れたパフォーマンスを発揮するソフトウェアを構築することで、どれだけの市場シェアが危機に瀕しているかを依然として過小評価しています。 $NUITとの比較をたくさん見てきました。まず、私は Nuit が構築しているものの大ファンであり、彼らの成功を願っていると言いたいです。私の電報に「nuit」と入力すると、4月に私が1つのコインを複数か月保持しなければならないとしたら、私のオペレーターの論文のためにNuitになるだろうと言ったことがわかります。 Nuitは紙の上で最も有望なオペレータープロジェクトでしたが、広範な調査の結果、彼らのアーキテクチャには、大規模な投資を正当化したり、私の評判を支持したりするために必要な深みが欠けていることがわかりました。 このことを念頭に置いて、私は既存のオペレーターエージェントチームのアーキテクチャ上のギャップをすでに認識しており、それらに対処するプロジェクトを積極的に探していました。コーデックが登場した直後(@0xdetweilerが主張してより深く調べたおかげで)、これが2つの違いです。 $CODEC vs $NUIT コーデックのアーキテクチャは 3 つのレイヤーにまたがって構築されています。マシン、システム、インテリジェンスは、インフラストラクチャ、環境インターフェイス、AI ロジックを分離します。Codec の各 Operator エージェントは、独自の分離された VM またはコンテナーで実行されるため、ネイティブに近いパフォーマンスと障害の分離が可能になります。この階層化された設計は、コンポーネントがシステムを壊すことなく独立して拡張または進化できることを意味します。 Nuitのアーキテクチャは、よりモノリシックになることで、異なる道を歩んでいます。彼らのスタックは、解析、AI 推論、アクションを組み合わせた特殊な Web ブラウザ エージェントを中心に展開しています。つまり、Web ページを AI が消費する構造化データに深く解析し、重い AI タスクをクラウド処理に依存しています。 各エージェント内に軽量の Vision-Language-Action (VLA) モデルを埋め込むコーデックのアプローチは、完全にローカルで実行できることを意味します。これにより、指示を求めてクラウドに常にpingバックする必要がなく、遅延が短縮され、稼働時間と帯域幅への依存が回避されます。 Nuit のエージェントは、まず Web ページをセマンティック形式に変換し、次に LLM の頭脳を使用して何をすべきかを判断することでタスクを処理しますが、これは強化学習によって時間の経過とともに改善されます。このフローは Web 自動化には効果的ですが、クラウド側の AI 処理と事前定義されたページ構造に依存します。コーデックのローカルデバイスインテリジェンスは、意思決定がデータの近くで行われることを意味し、オーバーヘッドを削減し、予期しない変更に対してシステムをより安定させます(脆弱なスクリプトやDOMの仮定はありません)。 コーデックの演算子は、継続的な知覚-思考-行動のループに従います。マシン層は、システム層の最適化されたチャネルを介して環境(ライブアプリやロボットフィードなど)をインテリジェンス層にストリーミングし、AIに現在の状態の「目」を与えます。次に、エージェントの VLA モデルがビジュアルと命令を一緒に解釈してアクションを決定し、システム層はキーボード/マウス イベントまたはロボット制御を通じてアクションを実行します。この統合ループは、ライブイベントに適応することを意味します。UI がずれても、フローが中断されることはありません。 これらすべてをより簡単に例えると、コーデックのオペレーターは、仕事中の予期せぬ事態に適応する自給自足の従業員のようなものだと考えてください。Nuit のエージェントは、立ち止まって電話で上司に状況を説明し、指示を待つ必要がある従業員のようなものです。 技術的なウサギの穴にあまり踏み込むことなく、これは私がオペレーターへの主な賭けとしてコーデックを選んだ理由についての大まかなアイデアを与えるはずです。 はい、NuitはYC、スタックされたチーム、およびS層のgithubからの支援を受けています。Codec のアーキテクチャは水平スケーリングを念頭に置いて構築されているため、エージェント間の共有メモリや実行コンテキストをゼロにして、何千ものエージェントを並行してデプロイできます。Codec のチームも平均的な開発者ではありません。 彼らのVLAアーキテクチャは、スクリーンショットではなくピクセルを通して見るため、以前のエージェントモデルでは不可能だった多数のユースケースを開きます。 続けても構いませんが、それは今後の投稿のために取っておきます。
1.91K