Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
$CODEC là gì?
Robotics, Operators, Gaming?
Tất cả những điều trên và nhiều hơn nữa.
Tầm nhìn-ngôn ngữ-hành động (VLA) của Codec là một mô hình không phụ thuộc vào khung, cho phép hàng chục trường hợp sử dụng nhờ khả năng độc đáo trong việc hình dung lỗi so với các LLM.
Trong 12 tháng qua, chúng tôi đã thấy rằng các LLM hoạt động chủ yếu như những cơ chế lặp, được điều khiển bởi dữ liệu và mẫu phản hồi đã được định nghĩa trước.
Bởi vì chúng được xây dựng dựa trên lời nói và văn bản, các LLM có khả năng hạn chế để phát triển vượt ra ngoài cửa sổ ngữ cảnh ngôn ngữ mà chúng được đào tạo. Chúng không thể diễn giải đầu vào cảm giác, như biểu cảm khuôn mặt hoặc tín hiệu cảm xúc thời gian thực, vì lý do của chúng bị ràng buộc vào ngôn ngữ, không phải nhận thức.
Hầu hết các tác nhân ngày nay kết hợp các LLM dựa trên transformer với các bộ mã hóa hình ảnh. Chúng "nhìn thấy" giao diện thông qua các ảnh chụp màn hình, diễn giải những gì trên màn hình và tạo ra các chuỗi hành động, nhấp chuột, gõ phím, cuộn để làm theo hướng dẫn và hoàn thành nhiệm vụ.
Đây là lý do tại sao AI chưa thay thế được nhiều loại công việc: các LLM nhìn thấy ảnh chụp màn hình, không phải pixel. Chúng không hiểu được ngữ nghĩa hình ảnh động của môi trường, chỉ những gì có thể đọc được qua các khung tĩnh.
Quy trình làm việc điển hình của chúng là lặp đi lặp lại: chụp một ảnh chụp màn hình, suy nghĩ về hành động tiếp theo, thực hiện nó, sau đó chụp một khung khác và lặp lại. Vòng lặp nhận thức-suy nghĩ này tiếp tục cho đến khi nhiệm vụ hoàn thành hoặc tác nhân thất bại.
Để thực sự tổng quát, AI phải nhận thức được môi trường của nó, suy nghĩ về trạng thái của nó và hành động phù hợp để đạt được mục tiêu, không chỉ diễn giải các bức ảnh tĩnh.
Chúng ta đã có các macro, bot RPA và kịch bản tự động hóa, nhưng chúng yếu và không ổn định. Một sự thay đổi pixel nhỏ hoặc thay đổi bố cục làm gián đoạn quy trình và yêu cầu sửa chữa thủ công. Chúng không thể thích ứng khi có điều gì đó thay đổi trong quy trình làm việc. Đó là nút thắt.
Tầm nhìn-Ngôn ngữ-Hành động (VLA)
Các tác nhân VLA của Codec hoạt động trên một vòng lặp trực quan nhưng mạnh mẽ: nhận thức, suy nghĩ, hành động. Thay vì chỉ phát ra văn bản như hầu hết các LLM, những tác nhân này nhìn thấy môi trường của nó, quyết định những gì cần làm và sau đó thực hiện. Tất cả được đóng gói thành một quy trình thống nhất, mà bạn có thể hình dung thành ba lớp cốt lõi:
Tầm nhìn
Tác nhân trước tiên nhận thức môi trường của nó thông qua tầm nhìn. Đối với một tác nhân Operator trên máy tính để bàn, điều này có nghĩa là chụp một ảnh chụp màn hình hoặc đầu vào hình ảnh của trạng thái hiện tại (ví dụ: một cửa sổ ứng dụng hoặc hộp văn bản). Thành phần tầm nhìn của mô hình VLA diễn giải đầu vào này, đọc văn bản trên màn hình và nhận diện các yếu tố giao diện hoặc đối tượng. Tức là đôi mắt của tác nhân.
Ngôn ngữ
Sau đó là suy nghĩ. Dựa trên ngữ cảnh hình ảnh (và bất kỳ hướng dẫn hoặc mục tiêu nào), mô hình phân tích hành động nào là cần thiết. Về cơ bản, AI "suy nghĩ" về phản ứng phù hợp giống như một người. Kiến trúc VLA kết hợp tầm nhìn và ngôn ngữ bên trong, vì vậy tác nhân có thể, ví dụ, hiểu rằng một hộp thoại bật lên đang hỏi một câu hỏi có/không. Nó sẽ quyết định hành động đúng (ví dụ: nhấp vào "OK") dựa trên mục tiêu hoặc lời nhắc. Đóng vai trò như bộ não của tác nhân, ánh xạ các đầu vào đã nhận thức thành một hành động.
Hành động
Cuối cùng, tác nhân hành động bằng cách xuất ra một lệnh điều khiển đến môi trường. Thay vì văn bản, mô hình VLA tạo ra một hành động (chẳng hạn như nhấp chuột, gõ phím hoặc gọi API) tương tác trực tiếp với hệ thống. Trong ví dụ hộp thoại, tác nhân sẽ thực hiện nhấp vào nút "OK". Điều này đóng vòng lặp: sau khi hành động, tác nhân có thể kiểm tra kết quả một cách trực quan và tiếp tục chu trình nhận thức–suy nghĩ–hành động. Các hành động là yếu tố phân tách chính biến chúng từ các hộp trò chuyện thành các tác nhân thực sự.
Trường hợp sử dụng
Như tôi đã đề cập, nhờ kiến trúc, Codec không bị ràng buộc bởi câu chuyện. Cũng như các LLM không bị giới hạn bởi những gì đầu ra văn bản mà chúng có thể tạo ra, VLA cũng không bị giới hạn bởi những gì nhiệm vụ mà chúng có thể hoàn thành.
Robotics
Thay vì dựa vào các kịch bản cũ hoặc tự động hóa không hoàn hảo, các tác nhân VLA tiếp nhận đầu vào hình ảnh (dữ liệu từ camera hoặc cảm biến), truyền nó qua một mô hình ngôn ngữ để lập kế hoạch, sau đó xuất ra các lệnh điều khiển thực tế để di chuyển hoặc tương tác với thế giới.
Cơ bản là robot nhìn thấy những gì ở trước mặt nó, xử lý các hướng dẫn như "di chuyển lon Pepsi bên cạnh quả cam", xác định vị trí mọi thứ, cách di chuyển mà không làm đổ bất cứ thứ gì, và thực hiện điều đó mà không cần mã cứng.
Đây là cùng một loại hệ thống như RT-2 hoặc PaLM-E của Google. Các mô hình lớn kết hợp tầm nhìn và ngôn ngữ để tạo ra các hành động trong thế giới thực. Công việc VLA của CogAct là một ví dụ tốt, robot quét một bàn đầy đồ, nhận một lời nhắc tự nhiên và thực hiện một vòng lặp đầy đủ: ID đối tượng, lập kế hoạch đường đi, thực hiện chuyển động.
Operators
Trong môi trường máy tính để bàn và web, các tác nhân VLA cơ bản hoạt động như những công nhân kỹ thuật số. Chúng "nhìn thấy" màn hình thông qua một ảnh chụp màn hình hoặc luồng trực tiếp, chạy điều đó qua một lớp lý luận được xây dựng trên một mô hình ngôn ngữ để hiểu cả giao diện người dùng và lời nhắc nhiệm vụ, sau đó thực hiện các hành động với điều khiển chuột và bàn phím thực tế, giống như một con người.
Vòng lặp đầy đủ, nhận thức, suy nghĩ, hành động chạy liên tục. Vì vậy, tác nhân không chỉ phản ứng một lần, mà nó đang tích cực điều hướng giao diện, xử lý nhiều quy trình từng bước mà không cần bất kỳ kịch bản mã cứng nào. Kiến trúc là sự kết hợp giữa tầm nhìn kiểu OCR để đọc văn bản/nút/icon, lý luận ngữ nghĩa để quyết định những gì cần làm, và một lớp điều khiển có thể nhấp, cuộn, gõ, v.v.
Nơi điều này trở nên thực sự thú vị là trong việc xử lý lỗi. Những tác nhân này có thể phản ánh sau các hành động và lập kế hoạch lại nếu điều gì đó không diễn ra như mong đợi. Không giống như các kịch bản RPA bị hỏng nếu giao diện người dùng thay đổi một chút, như một nút di chuyển vị trí hoặc một nhãn được đổi tên, một tác nhân VLA có thể thích ứng với bố cục mới bằng cách sử dụng các tín hiệu hình ảnh và hiểu ngôn ngữ. Điều này làm cho nó trở nên bền bỉ hơn cho tự động hóa trong thế giới thực, nơi các giao diện liên tục thay đổi.
Điều mà tôi đã gặp khó khăn khi lập trình các bot nghiên cứu của riêng mình thông qua các công cụ như playwright.
Gaming
Gaming là một trong những trường hợp sử dụng rõ ràng nhất mà các tác nhân VLA có thể tỏa sáng, hãy nghĩ về chúng ít như bot và nhiều hơn như những người chơi AI nhập vai. Toàn bộ quy trình là như nhau, tác nhân nhìn thấy màn hình trò chơi (khung hình, menu, lời nhắc văn bản), lý luận về những gì nó phải làm, sau đó chơi bằng cách sử dụng đầu vào chuột, bàn phím hoặc tay cầm.
Nó không tập trung vào sức mạnh thô, đây là AI học cách chơi game như một con người. Nhận thức + suy nghĩ + điều khiển, tất cả được kết nối với nhau. Dự án SIMA của DeepMind đã mở khóa điều này bằng cách kết hợp một mô hình tầm nhìn-ngôn ngữ với một lớp dự đoán và đưa nó vào các trò chơi như No Man’s Sky và Minecraft. Chỉ từ việc quan sát màn hình và làm theo hướng dẫn, tác nhân có thể hoàn thành các nhiệm vụ trừu tượng như "xây dựng một ngọn lửa trại" bằng cách kết nối các bước đúng, thu thập gỗ, tìm diêm và sử dụng kho đồ. Và nó không bị giới hạn chỉ trong một trò chơi. Nó đã chuyển giao kiến thức đó giữa các môi trường khác nhau.
Các tác nhân gaming VLA không bị khóa vào một bộ quy tắc. Cùng một tác nhân có thể thích ứng với các cơ chế hoàn toàn khác nhau, chỉ từ việc định vị hình ảnh và ngôn ngữ. Và vì nó được xây dựng trên cơ sở hạ tầng LLM, nó có thể giải thích những gì nó đang làm, làm theo hướng dẫn bằng ngôn ngữ tự nhiên giữa trò chơi, hoặc hợp tác với người chơi trong thời gian thực.
Chúng ta không còn xa việc có những đồng đội AI thích ứng với phong cách chơi và cá nhân hóa của bạn, tất cả nhờ vào Codec.

9,19K
Hàng đầu
Thứ hạng
Yêu thích