OpenAI は本日、オペレーター エージェントをリリースすることで、AI に関する私の北極星の論文を確認しました。 これは$CODECの指針であるだけでなく、今年初めの AI マニアの時期の投資を含め、私が行った他のすべての AI 投資でした。 ロボティクスに関してはコーデックと多くの議論がなされてきましたが、その分野は間もなく独自の物語を持つでしょうが、私が初日からコーデックに強気だった根本的な理由は、そのアーキテクチャがオペレーターエージェントをどのように強化するかによるものです。 人々は、絶え間ないプロンプトや監視を必要とせずに、自律的に実行され、人間の労働者よりも優れたパフォーマンスを発揮するソフトウェアを構築することで、どれだけの市場シェアが危機に瀕しているかを依然として過小評価しています。 $NUITとの比較をたくさん見てきました。まず、私は Nuit が構築しているものの大ファンであり、彼らの成功を願っていると言いたいです。私の電報に「nuit」と入力すると、4月に私が1つのコインを複数か月保持しなければならないとしたら、私のオペレーターの論文のためにNuitになるだろうと言ったことがわかります。 Nuitは紙の上で最も有望なオペレータープロジェクトでしたが、広範な調査の結果、彼らのアーキテクチャには、大規模な投資を正当化したり、私の評判を支持したりするために必要な深みが欠けていることがわかりました。 このことを念頭に置いて、私は既存のオペレーターエージェントチームのアーキテクチャ上のギャップをすでに認識しており、それらに対処するプロジェクトを積極的に探していました。コーデックが登場した直後(@0xdetweilerが主張してより深く調べたおかげで)、これが2つの違いです。 $CODEC vs $NUIT コーデックのアーキテクチャは 3 つのレイヤーにまたがって構築されています。マシン、システム、インテリジェンスは、インフラストラクチャ、環境インターフェイス、AI ロジックを分離します。Codec の各 Operator エージェントは、独自の分離された VM またはコンテナーで実行されるため、ネイティブに近いパフォーマンスと障害の分離が可能になります。この階層化された設計は、コンポーネントがシステムを壊すことなく独立して拡張または進化できることを意味します。 Nuitのアーキテクチャは、よりモノリシックになることで、異なる道を歩んでいます。彼らのスタックは、解析、AI 推論、アクションを組み合わせた特殊な Web ブラウザ エージェントを中心に展開しています。つまり、Web ページを AI が消費する構造化データに深く解析し、重い AI タスクをクラウド処理に依存しています。 各エージェント内に軽量の Vision-Language-Action (VLA) モデルを埋め込むコーデックのアプローチは、完全にローカルで実行できることを意味します。これにより、指示を求めてクラウドに常にpingバックする必要がなく、遅延が短縮され、稼働時間と帯域幅への依存が回避されます。 Nuit のエージェントは、まず Web ページをセマンティック形式に変換し、次に LLM の頭脳を使用して何をすべきかを判断することでタスクを処理しますが、これは強化学習によって時間の経過とともに改善されます。このフローは Web 自動化には効果的ですが、クラウド側の AI 処理と事前定義されたページ構造に依存します。コーデックのローカルデバイスインテリジェンスは、意思決定がデータの近くで行われることを意味し、オーバーヘッドを削減し、予期しない変更に対してシステムをより安定させます(脆弱なスクリプトやDOMの仮定はありません)。 コーデックの演算子は、継続的な知覚-思考-行動のループに従います。マシン層は、システム層の最適化されたチャネルを介して環境(ライブアプリやロボットフィードなど)をインテリジェンス層にストリーミングし、AIに現在の状態の「目」を与えます。次に、エージェントの VLA モデルがビジュアルと命令を一緒に解釈してアクションを決定し、システム層はキーボード/マウス イベントまたはロボット制御を通じてアクションを実行します。この統合ループは、ライブイベントに適応することを意味します。UI がずれても、フローが中断されることはありません。 これらすべてをより簡単に例えると、コーデックのオペレーターは、仕事中の予期せぬ事態に適応する自給自足の従業員のようなものだと考えてください。Nuit のエージェントは、立ち止まって電話で上司に状況を説明し、指示を待つ必要がある従業員のようなものです。 技術的なウサギの穴にあまり踏み込むことなく、これは私がオペレーターへの主な賭けとしてコーデックを選んだ理由についての大まかなアイデアを与えるはずです。 はい、NuitはYC、スタックされたチーム、およびS層のgithubからの支援を受けています。Codec のアーキテクチャは水平スケーリングを念頭に置いて構築されているため、エージェント間の共有メモリや実行コンテキストをゼロにして、何千ものエージェントを並行してデプロイできます。Codec のチームも平均的な開発者ではありません。 彼らのVLAアーキテクチャは、スクリーンショットではなくピクセルを通して見るため、以前のエージェントモデルでは不可能だった多数のユースケースを開きます。 続けても構いませんが、それは今後の投稿のために取っておきます。
Trissy
Trissy2025年5月13日
オペレーターエージェントの仮想環境:$CODEC AIの爆発的な普及に関する私の主要な論文は、常にオペレーターエージェントの台頭を中心に据えてきました。 しかし、これらのエージェントが成功するためには、深いシステムアクセスが必要であり、これにより、パーソナルコンピュータや機密データを効果的に制御できるようになるため、深刻なセキュリティ上の懸念が生じます。 OpenAIのような企業や、その他のテック大手がユーザーデータをどのように扱っているかは、すでに見てきました。ほとんどの人は気にしませんが、オペレーターエージェントから最も恩恵を受ける立場にある個人、上位1%は絶対に気にしています。 個人的には、OpenAIのような会社に私のマシンへのフルアクセスを与える可能性はゼロです。たとえそれが生産性の10×向上を意味するとしてもです。 では、なぜコーデックなのでしょうか? Codecのアーキテクチャは、AIエージェント向けの分離されたオンデマンドの「クラウドデスクトップ」の立ち上げを中心としています。その中核となるのは、Kubernetes ポッド内に軽量の仮想マシン (VM) をプロビジョニングする Kubernetes ベースのオーケストレーション サービス (コードネーム Captain) です。 各エージェントは、独自のOSレベルの分離環境(完全なLinux OSインスタンス)を取得し、他のエージェントやホストから完全にサンドボックス化されたアプリケーション、ブラウザ、または任意のコードを実行できます。Kubernetes は、これらのエージェント ポッドのスケジューリング、自動スケーリング、および自己修復を処理し、信頼性と、負荷の要求に応じて多くのエージェント インスタンスをスピンアップ/ダウンする機能を確保します これらのVMを保護するためにTrusted Execution Environment(TEE)が使用されるため、エージェントのマシンを暗号で分離し、そのメモリと実行をホストOSまたはクラウドプロバイダーから保護できます。これは機密性の高いタスクにとって非常に重要で、たとえば、エンクレーブで実行されているVMは、APIキーや暗号ウォレットのシークレットを安全に保持できます。 AI エージェント (LLM ベースの「頭脳」) がアクションを実行する必要がある場合、AI エージェントは API リクエストを Captain サービスに送信し、Captain サービスはエージェントの VM ポッドを起動または管理します。ワークフロー: エージェントがマシンをリクエストし、Captain (Kubernetes 経由) がポッドを割り当て、永続ボリューム (VM のディスク用) をアタッチします。その後、エージェントは (セキュリティで保護されたチャネルまたはストリーミング インターフェイスを介して) VM に接続し、コマンドを発行できます。Captain は、エージェントがシェル コマンドを実行したり、ファイルをアップロード/ダウンロードしたり、ログを取得したり、後で復元するために VM をスナップショットしたりするためのエンドポイントを公開します。 この設計により、エージェントは完全なオペレーティング システムを使用できますが、アクセスは制御され、監査されています。Kubernetes上に構築されているため、Codecは水平方向に自動スケーリングでき、100のエージェントが環境を必要とする場合、クラスター全体で100のポッドをスケジュールし、ポッドを再起動して障害を処理できます。 エージェントのVMには、さまざまなMCPサーバー(AI用の「USBポート」など)を搭載できます。たとえば、CodecのConductorモジュールは、ChromeブラウザとMicrosoft Playwright MCPサーバーを実行するコンテナで、ブラウザ制御が可能です。これにより、AIエージェントは、まるで人間がブラウザを制御しているかのように、標準のMCP呼び出しを介してWebページを開いたり、リンクをクリックしたり、フォームに入力したり、コンテンツをスクレイピングしたりできます。 その他のMCP統合には、ファイルシステム/ターミナルMCP(エージェントがCLIコマンドを安全に実行できるようにするため)やアプリケーション固有のMCP(クラウドAPI、データベースなど)などがあります。基本的に、Codecはインフラストラクチャの「ラッパー」(VM、エンクレーブ、ネットワーキング)を提供し、高レベルのエージェントプランを実際のソフトウェアとネットワーク上で安全に実行できるようにします。 ユースケース ウォレットの自動化: Codecは、TEEで保護されたVM内にウォレットやキーを埋め込むことができるため、AIエージェントは秘密鍵を公開することなくブロックチェーンネットワークと対話(DeFiでの取引、暗号資産の管理)を行うことができます。 このアーキテクチャにより、オンチェーンの金融エージェントは、一般的なエージェントのセットアップでは非常に危険な実際の取引を安全に実行できます。プラットフォームのキャッチフレーズには、主要な機能として「ウォレット」のサポートが明示的にリストされています。 たとえば、エージェントは、エンクレーブ内のイーサリアムウォレットのCLIを実行し、トランザクションに署名して送信し、エージェントが誤動作した場合、VMに限定され、キーがTEEから出ることがないことを保証できます。 ブラウザとWebの自動化: CodecFlow エージェントは、VM 内の完全な Web ブラウザーを制御できます。Conductor の例では、エージェントが Chrome を起動し、その画面をリアルタイムで Twitch にストリーミングする方法を示します。Playwright MCPを通じて、エージェントは人間のユーザーと同じようにWebサイトをナビゲートし、ボタンをクリックし、データをスクレイピングできます。これは、ログインの背後にあるWebスクレイピング、自動化されたWebトランザクション、Webアプリのテストなどのタスクに最適です。 従来のフレームワークは通常、API呼び出しまたは単純なヘッドレスブラウザスクリプトに依存しています。対照的に、CodecFlowは、UIが見える実際のブラウザを実行できるため、AIの制御下で複雑なWebアプリケーション(JavaScriptやCAPTCHAの負荷が高いチャレンジなど)を簡単に処理できます。 実際のGUI自動化(レガシーシステム): 各エージェントは実際のデスクトップOSを備えているため、従来のGUIアプリケーションやリモートデスクトップセッションを自動化でき、基本的にはロボティックプロセスオートメーション(RPA)のように機能しますが、AIによって駆動されます。たとえば、エージェントは Windows VM で Excel スプレッドシートを開いたり、API がない古いターミナル アプリケーションとインターフェイスしたりできます。 Codecのサイトでは、「レガシーオートメーション」を有効にすることが明示的に言及されています。これにより、最新のAPIではアクセスできないソフトウェアをAIを使用して操作することが可能になりますが、これは、封じ込められた環境がなければ非常にハッキーで安全でないタスクです。含まれているnoVNC統合は、エージェントがVNCを介して監視または制御できることを示唆しており、GUIを駆動するAIを監視するのに役立ちます。 SaaSワークフローのシミュレーション: 企業は、複数のSaaSアプリケーションやレガシーシステムが関与する複雑なプロセスを抱えていることがよくあります。たとえば、従業員が Salesforce からデータを取得し、それを内部 ERP からのデータと組み合わせて、概要をクライアントにメールで送信できます。Codecを使用すると、AIエージェントは、人間と同じように、VM内のブラウザまたはクライアントソフトウェアを介してこれらのアプリに実際にログインすることで、このシーケンス全体を実行できます。これはRPAに似ていますが、意思決定を行い、変動性を処理できるLLMによって駆動されます。 重要なのは、これらのアプリの資格情報を VM に安全に (さらには TEE で囲んで) 提供できるため、エージェントはプレーンテキストの資格情報を "表示" したり、外部に公開したりすることなく、アプリを使用できることです。これにより、日常的なバックオフィスタスクの自動化を加速すると同時に、各エージェントが最小限の権限と完全な監査可能性で実行されるITを満足させることができます(VM内のすべてのアクションをログに記録または記録できるため)。 ロードマップ - 月末に公開デモを開始 - 他の類似プラットフォームとの機能比較(web3の競合相手なし) - TAOインテグレーション - 大規模なゲーミングパートナーシップ オリジナリティの面では、Codecは既存のテクノロジーを基盤として構築されていますが、AIエージェントの使用に斬新な方法でそれらを統合しています。分離された実行環境のアイデアは新しいものではありませんが(コンテナ、VM、TEEはクラウドコンピューティングの標準です)、シームレスAPIレイヤー(MCP)を備えた自律型AIエージェントにそれらを適用することは非常に斬新です。 このプラットフォームは、可能な限りオープンスタンダードとツールを活用しており、ブラウザ制御にはMicrosoftのPlaywrightのようなMCPサーバーを使用し、仮想化を高速化するためにAWSのFirecrackerマイクロVMをサポートする予定です。また、ストリーミングデスクトップ用のnoVNCなどの既存のソリューションも分岐しました。このプロジェクトは、実績のある技術(Kubernetes、エンクレーブハードウェア、オープンソースライブラリ)の基盤の上に立っており、元の開発はグルーロジックとオーケストレーションに焦点を当てています(「秘密のソース」はすべてがどのように連携するかです)。 オープンソースのコンポーネントと今後のクラウドサービスの組み合わせ($CODECトークンユーティリティとパブリック製品アクセスの言及によって示唆されています)は、Codecがまもなく複数の形式(サービスとして、または自己ホストとして)でアクセスできるようになることを意味します。 チーム Moyai:15 +年の開発者経験、現在ElixirGamesでAI開発をリードしています。 lil'km:5 +年のAI開発者で、現在LeRobotプロジェクトのHuggingFaceと協力しています。 HuggingFaceは巨大なロボット工学企業であり、Moyaiはelixir games(スクウェア・エニックスとsolanafdnが支援)でAIの責任者として働いています。 私は個人的にチーム全員にビデオ通話をしましたが、彼らがもたらすエネルギーがとても気に入っています。彼らを私のレーダーに載せた私の友人もToken2049で彼ら全員に会い、良いことばかりを言いました。 最終的な感想 まだカバーすべきことがたくさん残っているので、今後の更新やテレグラムチャンネルへの投稿のために取っておきます。 私は長い間、クラウドインフラストラクチャがオペレーターエージェントの未来であると信じてきました。私は常にNuitが構築しているものを尊重してきましたが、Codecは私が探していたフルスタックの確信を示してくれた最初のプロジェクトです。 チームは明らかにトップクラスのエンジニアです。彼らは、マーケティングは自分たちの強みではないと公言しており、それがおそらくこれがレーダーの下を飛んでいる理由です。私は彼らと緊密に協力して、彼らが構築しているものの深さを実際に反映するGTM戦略を形作るのを助けます。 時価総額が400万ドルで、このレベルのインフラがあると、かなり割安に感じられます。使える製品を提供できれば、次のAIインフラサイクルの始まりを容易に示すことができると思います。 いつものように、リスクはあり、私は過去数週間にわたってチームをこっそりと吟味してきましたが、完全にラグプルーフのプロジェクトはありません。 価格目標?はるかに高いです。
オペレーターに Codec > Nuit を選んだ理由について: コーデックは 3 層アーキテクチャ (マシン、システム、インテリジェンス) を使用しており、ネイティブ制御を備えた分離された高性能エージェントを可能にします。 各コーデックエージェントは、Vision-Language-Action(VLA)ループを使用してローカルで実行され、レイテンシーを短縮し、信頼性を高めます。 Nuit のモデルはブラウザの解析 + クラウド AI 呼び出しに依存しているため、柔軟性が制限され、脆弱性が生じます。 コーデックは、何千ものエージェントにわたって水平方向に拡張でき、共有状態やフォールトトレラントなモジュール性はありません。
15.46K