Thỉnh thoảng, một dự án độc đáo xuất hiện và có cơ hội chạy theo con đường riêng của nó. AI phần lớn chỉ là các giao diện kiểu chatgpt và tạo hình ảnh/video sáng tạo. Chúng ta đã nghe trong vài tháng rằng chúng ta đang ở bờ vực mọi người mất việc do AI. Đúng là nó đã giúp mọi người tăng năng suất lên 10 lần, nhưng chúng ta vẫn chưa thay thế hoàn toàn con người trong lực lượng lao động. Tại sao? Các trợ lý AI thống trị hiện nay, từ chatbot trong trình duyệt đến các khung "đại lý" thử nghiệm, mạnh mẽ trong giao tiếp, nhưng bị giới hạn về cấu trúc trong việc thực hiện. Chúng thường dựa vào trình duyệt hoặc môi trường kịch bản đơn giản để thực hiện các tác vụ. Mặc dù điều này hoạt động tốt cho việc lấy thông tin hoặc tự động hóa web cơ bản, nhưng những đại lý này gặp khó khăn với các quy trình phức tạp, nhiều bước và thường bị hỏng khi mọi thứ lệch khỏi con đường hạn chế của chúng. Các đại lý AI hiện tại thất bại vì chúng thiếu bộ nhớ liên tục và khả năng chịu lỗi, khi đối mặt với các lỗi bất ngờ, chúng không thể phục hồi hoặc thích nghi, thường dừng lại hoặc lặp lại vô hạn. Hầu hết hoạt động trong các môi trường dựa trên trình duyệt hạn chế và không thể truy cập toàn bộ phần mềm doanh nghiệp, để lại công việc thường nhật ngoài tầm với của chúng. Đó là lý do tại sao chúng ta chưa thấy AI thay thế các vai trò công ty tẻ nhạt như hỗ trợ khách hàng và quản lý. Không phải vì thiếu khả năng trong chính các mô hình AI, mà vì các khung xung quanh chúng không đủ đáng tin cậy cho các quy trình làm việc quan trọng. Vậy cần gì? Một kiến trúc hệ thống được tái tưởng tượng. Một kiến trúc giải quyết khả năng chịu lỗi, bộ nhớ, truy cập, cách ly và hiệu quả trong một khung duy nhất. Thay vì dừng lại ở đầu vào bất ngờ đầu tiên, chúng nên bắt lỗi, thích nghi và thử các phương pháp khác nhau, giống như con người khi mọi thứ sai lầm. Để mở rộng AI vào các quy trình làm việc thực tế, nó cần bộ nhớ liên tục và theo dõi tác vụ để hoạt động đáng tin cậy trong thời gian dài. Chúng cũng cần truy cập toàn bộ hệ sinh thái, vượt ra ngoài các công cụ trình duyệt để sử dụng cùng phần mềm mà con người sử dụng, bao gồm cả các ứng dụng máy tính để bàn. Nếu không có cách ly an toàn, các đại lý không thể hoạt động an toàn trong các môi trường chuyên dụng, khiến việc triển khai quy mô lớn trở nên rủi ro do khả năng can thiệp giữa các hệ thống. Nếu họ muốn thời gian chạy của mình nhất quán và hiệu quả, họ cũng cần quản lý tài nguyên thông minh mà đối xử với máy tính như một cơ thể sống đang hoạt động. Đối với những ai đã kết nối các điểm, bản phát hành Fabric gần đây của @Codecopenflow đã mang tất cả điều này lại với nhau, cung cấp cho các đại lý AI các hệ điều hành (OS) đáng tin cậy, hoàn toàn chuyên dụng kết hợp sức mạnh nhận thức của các mô hình tiên tiến với cơ sở hạ tầng mà chúng cần để hoạt động như những công nhân kỹ thuật số đáng tin cậy. Fabric tự nó có thể là một phần mềm độc lập được cấp phép hoàn toàn. Nó biến các đại lý từ các kịch bản bị ràng buộc trong trình duyệt thành các nhà điều hành tự động với quyền truy cập cấp OS đầy đủ. Giống như một bộ tổng hợp DEX định tuyến giá hiệu quả nhất cho bạn, Fabric là lớp định tuyến phục vụ kiến trúc cấp sâu của Codec. Bạn liệt kê nhu cầu CPU, GPU, bộ nhớ và bất kỳ sở thích khu vực nào. Điều này có nghĩa là tìm các máy chủ tiết kiệm chi phí nhất như AWS/google cloud hoặc tài nguyên GPU từ Render/IO net. Codec cung cấp SDK sạch và API để kiểm soát hoàn toàn các nhà điều hành AI này. Một công ty có thể tích hợp các đại lý Codec vào quy trình phần mềm hiện có của họ (ví dụ, khởi động một đại lý để xử lý yêu cầu của người dùng, sau đó tắt nó) mà không cần phải tái phát minh cơ sở hạ tầng của họ. Trong hỗ trợ khách hàng, các đại lý có thể quản lý toàn bộ quy trình làm việc, giải quyết truy vấn, cập nhật CRM, hoàn tiền, giảm chi phí lao động lên đến 90% trong khi cải thiện tính nhất quán và thời gian hoạt động. Đối với hoạt động kinh doanh, Codec tự động hóa các quy trình hành chính lặp đi lặp lại như xử lý hóa đơn, cập nhật HR và yêu cầu bảo hiểm, đặc biệt trong các lĩnh vực có khối lượng lớn như tài chính và chăm sóc sức khỏe. Bằng cách tập trung vào một môi trường đa ứng dụng hoàn toàn cách ly cho mỗi nhà điều hành AI, AI không bị hạn chế bởi các vấn đề quan trọng về độ tin cậy và tích hợp mà các khung trước đó không thể giải quyết. Về cơ bản biến cơ sở hạ tầng điện toán đám mây thành một dây chuyền lắp ráp linh hoạt cho các công nhân AI. Mỗi "công nhân" được cung cấp các công cụ phù hợp (ứng dụng, OS, truy cập dữ liệu) và một dây an toàn (cách ly + xử lý lỗi) để thực hiện công việc của mình. Mỗi cải tiến trong các mô hình AI (GPT-5 v.v.) chỉ làm tăng giá trị của nền tảng Codec, vì "bộ não" tốt hơn giờ đây có thể được kết nối vào "cơ thể" mạnh mẽ này để thực hiện các công việc phức tạp hơn. Codec là không phụ thuộc vào mô hình (hoạt động với bất kỳ mô hình AI nào), vì vậy nó có lợi từ sự tiến bộ chung của AI mà không bị ràng buộc với số phận của một nhà cung cấp duy nhất. Chúng ta đang ở một điểm chuyển mình tương tự như những ngày đầu của điện toán đám mây. Cũng như các công ty cung cấp nền tảng cho đám mây (ảo hóa, cơ sở hạ tầng của AWS, v.v.) trở nên không thể thiếu cho CNTT doanh nghiệp, một công ty cung cấp nền tảng mà các đại lý AI hoạt động sẽ chiếm lĩnh một thị trường lớn. OpenAI đã phát hành một terminal lập trình đám mây hoàn toàn có khả năng gọi là Codex. Codex sẽ là một phiên bản mini cục bộ của Codex mà bạn có thể chạy trên máy tính của mình, nhưng quan trọng hơn, mô hình chính của Codex sẽ ở trên đám mây với máy tính riêng của nó. Người đồng sáng lập OpenAI tin rằng các công ty thành công nhất trong tương lai sẽ là hai loại kiến trúc này được kết hợp với nhau. Nghe có vẻ quen thuộc. Điều gì tiếp theo? Thay vì nói cho bạn điều gì tiếp theo, có lẽ tốt hơn tôi chỉ ra những gì chúng ta chưa thấy: - Không có tiện ích token được xác nhận - Không có động lực - Không có lộ trình cốt lõi - Không có bản demo - Không có thị trường - Quan hệ đối tác tối thiểu Xem xét có bao nhiêu thứ đang trong quy trình cùng với các trang web mới, tài liệu cập nhật, các pool thanh khoản sâu hơn, các chiến dịch cộng đồng/tiếp thị và robot. Codec chưa tiết lộ nhiều thông tin. Chắc chắn có thể có nhiều sản phẩm dựa trên trình duyệt đã sẵn sàng trên thị trường hiện tại, mặc dù bao lâu nữa thì chúng sẽ trở nên lỗi thời? Đây là một khoản đầu tư vào hướng đi của AI và kiến trúc chính sẽ thay thế lực lượng lao động con người. Codec đã mã hóa.
Trissy
Trissy13 thg 5, 2025
Môi trường ảo cho các tác nhân vận hành: $CODEC Luận điểm chính của tôi về sự bùng nổ của AI luôn tập trung vào sự phát triển của các tác nhân vận hành. Nhưng để các tác nhân này thành công, chúng cần quyền truy cập sâu vào hệ thống, thực tế là cho phép chúng kiểm soát máy tính cá nhân và dữ liệu nhạy cảm của bạn, điều này đặt ra những lo ngại nghiêm trọng về bảo mật. Chúng ta đã thấy cách các công ty như OpenAI và các tập đoàn công nghệ lớn khác xử lý dữ liệu người dùng. Mặc dù hầu hết mọi người không quan tâm, nhưng những cá nhân có lợi ích lớn nhất từ các tác nhân vận hành, nhóm 1% hàng đầu, chắc chắn rất quan tâm. Cá nhân tôi, không có khả năng tôi sẽ cho một công ty như OpenAI quyền truy cập đầy đủ vào máy của mình, ngay cả khi điều đó mang lại hiệu suất tăng gấp 10 lần. Vậy tại sao lại là Codec? Kiến trúc của Codec tập trung vào việc khởi chạy các "máy tính để bàn đám mây" cách ly, theo yêu cầu cho các tác nhân AI. Cốt lõi của nó là một dịch vụ điều phối dựa trên Kubernetes (có tên mã là Captain) cung cấp các máy ảo nhẹ (VMs) bên trong các pod Kubernetes. Mỗi tác nhân có môi trường cách ly cấp hệ điều hành riêng (một phiên bản hệ điều hành Linux đầy đủ) nơi nó có thể chạy ứng dụng, trình duyệt hoặc bất kỳ mã nào, hoàn toàn cách ly khỏi các tác nhân khác và máy chủ. Kubernetes xử lý việc lập lịch, tự động mở rộng và tự phục hồi các pod của tác nhân, đảm bảo độ tin cậy và khả năng khởi động/tắt nhiều phiên bản tác nhân khi nhu cầu tải tăng. Môi trường thực thi tin cậy (TEEs) được sử dụng để bảo mật các VMs này, nghĩa là máy của tác nhân có thể được cách ly bằng mật mã, bộ nhớ và thực thi của nó có thể được bảo vệ khỏi hệ điều hành máy chủ hoặc nhà cung cấp đám mây. Điều này rất quan trọng đối với các nhiệm vụ nhạy cảm: ví dụ, một VM chạy trong một enclave có thể giữ các khóa API hoặc bí mật ví tiền điện tử một cách an toàn. Khi một tác nhân AI ("bộ não" dựa trên LLM) cần thực hiện hành động, nó gửi yêu cầu API đến dịch vụ Captain, sau đó khởi chạy hoặc quản lý pod VM của tác nhân. Quy trình làm việc: tác nhân yêu cầu một máy, Captain (thông qua Kubernetes) phân bổ một pod và gắn một volume lưu trữ (cho đĩa của VM). Tác nhân sau đó có thể kết nối vào VM của nó (thông qua kênh bảo mật hoặc giao diện streaming) để thực hiện lệnh. Captain cung cấp các điểm cuối cho tác nhân để thực thi lệnh shell, tải lên/tải xuống tệp, truy xuất nhật ký và thậm chí snapshot VM để khôi phục sau này. Thiết kế này cung cấp cho tác nhân một hệ điều hành đầy đủ để làm việc, nhưng với quyền truy cập được kiểm soát và kiểm toán. Vì nó được xây dựng trên Kubernetes, Codec có thể tự động mở rộng theo chiều ngang, nếu 100 tác nhân cần môi trường, nó có thể lập lịch 100 pod trên toàn bộ cluster và xử lý lỗi bằng cách khởi động lại các pod. VM của tác nhân có thể được trang bị các máy chủ MCP khác nhau (như một "cổng USB" cho AI). Ví dụ, module Conductor của Codec là một container chạy trình duyệt Chrome cùng với máy chủ MCP Microsoft Playwright để điều khiển trình duyệt. Điều này cho phép một tác nhân AI mở các trang web, nhấp vào liên kết, điền vào biểu mẫu và thu thập nội dung thông qua các cuộc gọi MCP tiêu chuẩn, như thể nó là một con người điều khiển trình duyệt. Các tích hợp MCP khác có thể bao gồm hệ thống tệp/terminal MCP (để cho phép tác nhân chạy lệnh CLI một cách an toàn) hoặc các MCP cụ thể cho ứng dụng (cho các API đám mây, cơ sở dữ liệu, v.v.). Về cơ bản, Codec cung cấp các "wrapper" cơ sở hạ tầng (VMs, enclaves, mạng) để các kế hoạch cấp cao của tác nhân có thể được thực hiện một cách an toàn trên phần mềm và mạng thực. Các trường hợp sử dụng Tự động hóa ví: Codec có thể nhúng ví hoặc khóa bên trong một VM được bảo vệ bởi TEE, cho phép một tác nhân AI tương tác với các mạng blockchain (giao dịch trên DeFi, quản lý tài sản tiền điện tử) mà không làm lộ các khóa bí mật. Kiến trúc này cho phép các tác nhân tài chính onchain thực hiện các giao dịch thực một cách an toàn, điều mà sẽ rất nguy hiểm trong một thiết lập tác nhân thông thường. Tagline của nền tảng này liệt kê rõ ràng hỗ trợ cho "ví" như một khả năng chính. Một tác nhân có thể, ví dụ, chạy CLI cho một ví Ethereum bên trong enclave của nó, ký các giao dịch và gửi chúng, với sự đảm bảo rằng nếu tác nhân hành xử sai, nó bị giới hạn trong VM của nó và các khóa không bao giờ rời khỏi TEE. Tự động hóa trình duyệt và web: Các tác nhân CodecFlow có thể điều khiển trình duyệt web đầy đủ trong VM của chúng. Ví dụ Conductor cho thấy một tác nhân khởi chạy Chrome và streaming màn hình của nó lên Twitch trong thời gian thực. Thông qua MCP Playwright, tác nhân có thể điều hướng các trang web, nhấp vào nút và thu thập dữ liệu giống như một người dùng thực. Điều này lý tưởng cho các nhiệm vụ như thu thập dữ liệu web sau khi đăng nhập, giao dịch web tự động hoặc kiểm tra ứng dụng web. Các framework truyền thống thường dựa vào các cuộc gọi API hoặc các script trình duyệt headless đơn giản; ngược lại, CodecFlow có thể chạy một trình duyệt thực với giao diện người dùng hiển thị, giúp dễ dàng xử lý các ứng dụng web phức tạp (ví dụ: với JavaScript nặng hoặc các thử thách CAPTCHA) dưới sự kiểm soát của AI. Tự động hóa GUI thực tế (Hệ thống cũ): Vì mỗi tác nhân có một hệ điều hành desktop thực tế, nó có thể tự động hóa các ứng dụng GUI cũ hoặc các phiên remote desktop, về cơ bản hoạt động như tự động hóa quy trình robot (RPA) nhưng được điều khiển bởi AI. Ví dụ, một tác nhân có thể mở một bảng tính Excel trong VM Windows của nó, hoặc giao diện với một ứng dụng terminal cũ không có API. Trang web của Codec đề cập rõ ràng đến việc cho phép "tự động hóa cũ". Điều này mở ra việc sử dụng AI để vận hành phần mềm không thể truy cập thông qua các API hiện đại, một nhiệm vụ sẽ rất khó khăn hoặc không an toàn nếu không có môi trường chứa. Tích hợp noVNC được bao gồm cho thấy các tác nhân có thể được quan sát hoặc điều khiển thông qua VNC, điều này hữu ích để giám sát AI điều khiển GUI. Mô phỏng quy trình làm việc SaaS: Các công ty thường có các quy trình phức tạp liên quan đến nhiều ứng dụng SaaS hoặc hệ thống cũ. Ví dụ, một nhân viên có thể lấy dữ liệu từ Salesforce, kết hợp nó với dữ liệu từ một ERP nội bộ, sau đó gửi email tóm tắt cho khách hàng. Codec có thể cho phép một tác nhân AI thực hiện toàn bộ chuỗi này bằng cách thực sự đăng nhập vào các ứng dụng này thông qua trình duyệt hoặc phần mềm khách trong VM của nó, giống như một con người. Điều quan trọng là, thông tin đăng nhập cho các ứng dụng này có thể được cung cấp cho VM một cách an toàn (và thậm chí được bao bọc trong TEE), vì vậy tác nhân có thể sử dụng chúng mà không bao giờ "nhìn thấy" thông tin đăng nhập dạng văn bản hoặc làm lộ chúng ra bên ngoài. Điều này có thể tăng tốc tự động hóa các nhiệm vụ văn phòng thường xuyên trong khi đáp ứng yêu cầu của IT rằng mỗi tác nhân hoạt động với quyền tối thiểu và khả năng kiểm toán đầy đủ (vì mọi hành động trong VM có thể được ghi lại hoặc ghi hình). Lộ trình - Ra mắt demo công khai vào cuối tháng - So sánh tính năng với các nền tảng tương tự khác (không có đối thủ cạnh tranh web3) - Tích hợp TAO - Hợp tác lớn với ngành game Về tính độc đáo, Codec được xây dựng trên nền tảng các công nghệ hiện có nhưng tích hợp chúng theo cách mới cho việc sử dụng tác nhân AI. Ý tưởng về môi trường thực thi cách ly không phải là mới (container, VM và TEE là tiêu chuẩn trong điện toán đám mây), nhưng áp dụng chúng cho các tác nhân AI tự động với một lớp API liền mạch (MCP) là cực kỳ mới lạ. Nền tảng này tận dụng các tiêu chuẩn và công cụ mở bất cứ khi nào có thể: nó sử dụng các máy chủ MCP như Playwright của Microsoft để điều khiển trình duyệt thay vì tái tạo bánh xe đó, và có kế hoạch hỗ trợ các micro-VM Firecracker của AWS để ảo hóa nhanh hơn. Nó cũng fork các giải pháp hiện có như noVNC để streaming desktop. Điều này chứng minh rằng dự án đang đứng trên nền tảng của công nghệ đã được chứng minh (Kubernetes, phần cứng enclave, thư viện mã nguồn mở), tập trung phát triển ban đầu vào logic kết nối và điều phối ("bí quyết" là cách tất cả hoạt động cùng nhau). Sự kết hợp giữa các thành phần mã nguồn mở và dịch vụ đám mây sắp ra mắt (được gợi ý bởi việc đề cập đến tiện ích token $CODEC và quyền truy cập sản phẩm công khai) có nghĩa là Codec sẽ sớm có thể truy cập dưới nhiều hình thức (cả dưới dạng dịch vụ và tự lưu trữ). Đội ngũ Moyai: 15+ năm kinh nghiệm phát triển, hiện đang dẫn đầu phát triển AI tại Elixir Games. lil’km: 5+ năm phát triển AI, hiện đang làm việc với HuggingFace trong dự án LeRobot. HuggingFace là một công ty robot lớn và Moyai làm việc với tư cách là trưởng nhóm AI tại Elixir Games (được hỗ trợ bởi Square Enix và Solanafdn). Tôi đã gọi video với toàn bộ đội ngũ và thực sự thích năng lượng mà họ mang lại. Bạn tôi, người đã giới thiệu họ cho tôi, cũng đã gặp tất cả họ tại Token2049 và chỉ có những điều tốt đẹp để nói. Suy nghĩ cuối cùng Vẫn còn rất nhiều điều cần đề cập, tôi sẽ để dành cho các cập nhật và bài viết trong kênh Telegram của mình. Tôi luôn tin rằng cơ sở hạ tầng đám mây là tương lai cho các tác nhân vận hành. Tôi luôn tôn trọng những gì Nuit đang xây dựng, nhưng Codec là dự án đầu tiên cho tôi thấy sự thuyết phục toàn diện mà tôi đang tìm kiếm. Đội ngũ rõ ràng là các kỹ sư hàng đầu. Họ đã nói thẳng rằng marketing không phải là thế mạnh của họ, có lẽ đó là lý do tại sao điều này chưa được chú ý. Tôi sẽ làm việc chặt chẽ với họ để giúp định hình chiến lược GTM thực sự phản ánh chiều sâu của những gì họ đang xây dựng. Với vốn hóa thị trường 4 triệu đô la và mức độ cơ sở hạ tầng này, nó cảm thấy bị định giá thấp một cách đáng kể. Nếu họ có thể cung cấp một sản phẩm khả dụng, tôi nghĩ nó có thể dễ dàng đánh dấu sự khởi đầu của chu kỳ cơ sở hạ tầng AI tiếp theo. Như mọi khi, có rủi ro và mặc dù tôi đã kiểm tra đội ngũ trong bí mật trong vài tuần qua, không có dự án nào hoàn toàn không có nguy cơ. Mục tiêu giá? Cao hơn nhiều.
11,84K