為了你好,請閱讀Trissy對於為什麼@codecopenflow是AI運營商最佳選擇之一的解釋。 OpenAI剛剛發布了他們的運營商代理,因此顯然大公司也在研究VLA。 風險仍然很高,但這個的上限是天文數字。
Trissy
Trissy7月18日 16:10
OpenAI 今天剛剛確認了我對 AI 的北極星論點,發布了他們的操作員代理。 這不僅是我對 $CODEC 的指導論點,也是我在 AI 瘋狂期間年初所做的每一項 AI 投資的基礎。 關於 Codec 與機器人技術的討論很多,雖然這個領域很快會有自己的敘事,但我從第一天起對 Codec 的看好,根本原因在於它的架構如何支持操作員代理。 人們仍然低估了通過構建自動運行的軟件來獲得的市場份額,這些軟件能夠超越人類工作者,而不需要不斷的提示或監督。 我看到很多人將其與 $NUIT 進行比較。首先,我想說我非常喜歡 Nuit 的建設,並祝願他們成功。如果你在我的 Telegram 中輸入 "nuit",你會看到我在四月時說過,如果我必須持有一種幣幾個月,那將是 Nuit,因為我的操作員論點。 Nuit 在紙面上是最有前途的操作項目,但經過深入研究,我發現他們的架構缺乏必要的深度,無法證明進行重大投資或將我的聲譽放在其背後的合理性。 考慮到這一點,我已經意識到現有操作員代理團隊中的架構缺口,並積極尋找能夠解決這些問題的項目。不久之後 Codec 出現了(多虧了 @0xdetweiler 堅持讓我更深入了解他們),這就是兩者之間的區別: $CODEC 與 $NUIT Codec 的架構分為三層;機器、系統和智能,分開基礎設施、環境介面和 AI 邏輯。Codec 中的每個操作員代理都在自己的隔離 VM 或容器中運行,實現接近本地的性能和故障隔離。這種分層設計意味著組件可以獨立擴展或演變,而不會破壞系統。 Nuit 的架構則採取不同的路徑,更加單一化。他們的堆棧圍繞一個專門的網頁瀏覽器代理,結合了解析、AI 推理和行動。這意味著他們深入解析網頁,將其轉換為 AI 可消耗的結構化數據,並依賴雲端處理來執行重型 AI 任務。 Codec 將輕量級的視覺-語言-行動 (VLA) 模型嵌入每個代理中,意味著它可以完全本地運行。這不需要不斷地回到雲端獲取指令,減少了延遲,避免了對正常運行時間和帶寬的依賴。 Nuit 的代理通過首先將網頁轉換為語義格式,然後使用 LLM 大腦來決定該做什麼,這一過程隨著強化學習而不斷改進。雖然這對於網頁自動化是有效的,但這一流程依賴於重型雲端 AI 處理和預定義的頁面結構。Codec 的本地設備智能意味著決策更接近數據,減少了開銷,使系統對意外變化更穩定(沒有脆弱的腳本或 DOM 假設)。 Codec 的操作員遵循一個持續的感知–思考–行動循環。機器層通過系統層的優化通道將環境(例如實時應用或機器人反饋)流式傳輸到智能層,為 AI 提供“眼睛”來觀察當前狀態。代理的 VLA 模型然後將視覺和指令一起解釋,以決定行動,系統層通過鍵盤/鼠標事件或機器人控制來執行。這個集成循環意味著它能夠適應實時事件,即使 UI 發生變化,你也不會打斷流程。 用一個更簡單的比喻來說,將 Codec 的操作員想像成一個能夠適應工作中驚喜的自給自足的員工。Nuit 的代理則像是一個需要暫停、向主管通過電話描述情況並等待指示的員工。 不深入技術細節,這應該能讓你對我為什麼選擇 Codec 作為我對操作員的主要押注有一個高層次的了解。 是的,Nuit 得到了 YC 的支持,擁有一支強大的團隊和 S 級的 GitHub。儘管 Codec 的架構是以水平擴展為考量,這意味著你可以並行部署數千個代理,而不會在代理之間共享內存或執行上下文。Codec 的團隊也不是普通的開發者。 他們的 VLA 架構開啟了許多以前的代理模型無法實現的用例,因為它能夠透過像素而不是截圖進行觀察。 我可以繼續說下去,但我會將這些留到未來的帖子中。
1.91K