$CODECとは ロボティクス、オペレーター、ゲーム? 上記のすべてとそれ以上のもの。 Codecのvision-language-action(VLA)は、フレームワークに依存しないモデルであり、LLMと比較してエラーを視覚化する独自の機能により、数十の使用例を可能にします。 過去 12 か月間、LLM は主にループ メカニズムとして機能し、事前定義されたデータと応答パターンによって駆動されることがわかりました。 LLMは音声とテキストに基づいて構築されているため、トレーニングを受けた言語コンテキストの枠を超えて進化する能力は限られています。彼らは、顔の表情やリアルタイムの感情的な手がかりなどの感覚入力を解釈することはできません。これは、彼らの推論が知覚ではなく言語に縛られているためです。 今日、ほとんどのエージェントは、トランスフォーマーベースのLLMとビジュアルエンコーダーを組み合わせています。スクリーンショットを通じてインターフェースを「見て」、画面上に表示されているものを解釈し、指示に従ってタスクを完了するためのアクション、クリック、キーストローク、スクロールのシーケンスを生成します。 これが、AIがまだ大きなカテゴリのジョブに取って代わっていない理由です:LLMはピクセルではなくスクリーンショットを見ます。彼らは環境の動的な視覚的セマンティクスを理解しておらず、静的フレームを通じて読み取れるものだけを理解しています。 彼らの典型的なワークフローは、スクリーンショットをキャプチャし、次のアクションについて推論し、それを実行し、別のフレームをキャプチャして繰り返すという繰り返しです。この知覚と思考のループは、タスクが完了するか、エージェントが失敗するまで続きます。 真に一般化するためには、AIはスナップショットを解釈するだけでなく、環境を認識し、その状態について推論し、目標を達成するために適切に行動する必要があります。 マクロ、RPAボット、自動化スクリプトはすでにありますが、それらは弱く不安定です。わずかなピクセルシフトやレイアウトの変更はフローを中断し、手動パッチが必要になります。ワークフローで何かが変更されたときに適応することはできません。それがボトルネックです。 ビジョン-ランゲージ-アクション(VLA) CodecのVLAエージェントは、知覚、思考、行動という直感的でありながら強力なループで実行されます。これらのエージェントは、ほとんどのLLMのようにテキストを吐き出すだけでなく、その環境を見て、何をすべきかを決定し、実行します。これらはすべて 1 つの統合パイプラインにパッケージ化されており、次の 3 つのコア レイヤーに視覚化できます。 視覚 エージェントはまず、視覚を通じて環境を知覚します。デスクトップの Operator エージェントの場合、これは現在の状態 (アプリ ウィンドウやテキスト ボックスなど) のスクリーンショットまたは視覚的な入力をキャプチャすることを意味します。VLA モデルのビジョン コンポーネントは、この入力を解釈し、画面上のテキストを読み取り、インターフェイス要素またはオブジェクトを認識します。別名、エージェントの目。 言語 次に、考え方が浮かびます。視覚的なコンテキスト (および指示や目標) を考慮して、モデルは必要なアクションを分析します。基本的に、AIは人間と同じように適切な対応について「考える」のです。VLAアーキテクチャは、ビジョンと言語を内部的に統合するため、エージェントは、たとえば、ポップアップダイアログが「はい」/「いいえ」の質問をしていることを理解できます。その後、目標またはプロンプトに基づいて正しいアクション(「OK」をクリックするなど)を決定します。エージェントの脳として機能し、知覚された入力をアクションにマッピングします。 アクション 最後に、エージェントは制御コマンドを環境に出力することによって動作します。VLA モデルは、テキストの代わりに、システムと直接対話するアクション (マウス クリック、キーストローク、API 呼び出しなど) を生成します。ダイアログの例では、エージェントは「OK」ボタンのクリックを実行します。これにより、行動した後、エージェントは結果を視覚的に確認し、知覚-思考-行動のサイクルを続けることができます。アクションは、チャットボックスから実際のオペレーターに変える重要な区切り文字です。 ユースケース 前述したように、アーキテクチャにより、Codecはナラティブにとらわれません。LLMが生成できるテキスト出力に制限されないのと同様に、VLAは完了できるタスクに制限されません。 ロボティックス VLAエージェントは、古いスクリプトや不完全な自動化に頼るのではなく、視覚的な入力(カメラフィードやセンサー)を取り込み、それを言語モデルに渡して計画を立て、実際の制御コマンドを出力して世界を移動または操作します。 基本的に、ロボットは目の前にあるものを見て、「ペプシ缶をオレンジの隣に移動させてください」などの指示を処理し、すべてがどこにあるか、何も倒さずにどのように移動するかを把握し、ハードコーディングを必要とせずにそれを行います。 これは、GoogleのRT-2またはPaLM-Eと同じクラスのシステムです。視覚と言語を融合して現実世界の行動を生み出すビッグモデル。CogActのVLA作業は良い例で、ロボットは雑然としたテーブルをスキャンし、自然なプロンプトを受け取り、オブジェクトID、パスプランニング、モーション実行などの完全なループを実行します。 演算子 デスクトップおよびWeb環境では、VLAエージェントは基本的にデジタルワーカーのように機能します。スクリーンショットやライブフィードを通じて画面を「見て」、それを言語モデル上に構築された推論レイヤーで実行してUIとタスクプロンプトの両方を理解し、人間と同じように実際のマウスとキーボードの制御でアクションを実行します。 この完全なループ、知覚、思考、行動は継続的に実行されます。そのため、エージェントは一度だけ反応するのではなく、インターフェイスをアクティブにナビゲートし、ハードコードされたスクリプトを必要とせずに複数のステップフローを処理します。このアーキテクチャは、テキスト/ボタン/アイコンを読み取るOCRスタイルのビジョン、何をすべきかを決定するためのセマンティック推論、クリック、スクロール、入力などが可能なコントロールレイヤーを組み合わせたものです。 これが本当に興味深いのは、エラー処理です。これらのエージェントは、事後アクションを振り返り、何かが予想どおりに進まない場合は再計画できます。ボタンの位置がずれたり、ラベルの名前が変更されたりするなど、UIがわずかに変更されると壊れるRPAスクリプトとは異なり、VLAエージェントは視覚的な手がかりと言語理解を使用して新しいレイアウトに適応できます。インターフェースが絶えず変化する現実世界の自動化に対する回復力が大幅に向上します。 これは、私が個人的に、Playwrightのようなツールを使って自分の研究ボットをコーディングする際に苦労したことです。 ゲーム ゲームは、VLAエージェントが活躍できる最も明確なユースケースの1つであり、VLAエージェントをボットではなく、没入型AIプレーヤーのように考えてください。全体の流れは同じで、エージェントはゲーム画面(フレーム、メニュー、テキストプロンプト)を見て、何をすべきかについての理由を見てから、マウス、キーボード、またはコントローラーの入力を使用してプレイします。 これはブルートフォースに焦点を当てているのではなく、AIが人間のようにゲームする方法を学習しているのです。知覚+思考+コントロール、すべてが結びついています。DeepMindのSIMAプロジェクトは、ビジョン言語モデルと予測レイヤーを組み合わせることでこれを解き放ち、No Man's SkyやMinecraftなどのゲームに落とし込みました。エージェントは、画面を見て指示に従うだけで、「キャンプファイヤーを作る」などの抽象的なタスクを完了したり、適切なステップを連鎖させたり、木材を集めたり、マッチを見つけたり、インベントリを使用したりできます。そして、それは1つのゲームだけに限定されたものでもありません。それは、異なる環境間でその知識を伝達しました。 VLAゲームエージェントは、1つのルールセットに縛られることはありません。同じエージェントが、視覚と言語の接地だけで、まったく異なるメカニズムに適応できます。また、LLMインフラストラクチャ上に構築されているため、何をしているのかを説明したり、ゲームの途中で自然言語の指示に従っていたり、リアルタイムでプレイヤーとコラボレーションしたりできます。 Codecのおかげで、あなたのプレイスタイルやパーソナライゼーションに適応するAIチームメイトが生まれる日もそう遠くありません。
9.18K