$CODEC Operator là gì? Đó là nơi mà các mô hình Vision-Language-Action cuối cùng làm cho AI hữu ích cho công việc thực tế. Một Operator là một tác nhân phần mềm tự động được cung cấp năng lượng bởi các mô hình VLA, thực hiện các nhiệm vụ thông qua một chu trình liên tục nhận thức-lý luận-hành động. LLMs có thể suy nghĩ và nói một cách xuất sắc, nhưng chúng không thể chỉ, nhấp chuột, hoặc nắm bắt bất cứ điều gì. Chúng là những động cơ lý luận thuần túy mà không có sự kết nối nào với thế giới vật lý. VLAs kết hợp nhận thức hình ảnh, hiểu ngôn ngữ và đầu ra hành động có cấu trúc trong một lần truyền duy nhất. Trong khi một LLM mô tả những gì nên xảy ra, một mô hình VLA thực sự làm cho nó xảy ra bằng cách phát ra tọa độ, tín hiệu điều khiển và lệnh thực thi. Quy trình làm việc của Operator là: - Nhận thức: chụp ảnh màn hình, luồng camera, hoặc dữ liệu cảm biến. - Lý luận: xử lý các quan sát cùng với hướng dẫn bằng ngôn ngữ tự nhiên sử dụng mô hình VLA. - Hành động: thực hiện các quyết định thông qua tương tác UI hoặc điều khiển phần cứng - tất cả trong một vòng lặp liên tục. Ví dụ: LLM so với Operator được cung cấp năng lượng bởi mô hình VLA Lên lịch cuộc họp LLM: Cung cấp một giải thích chi tiết về quản lý lịch, phác thảo các bước để lên lịch một cuộc họp. Operator với mô hình VLA: - Chụp màn hình máy tính của người dùng. - Xác định ứng dụng lịch (ví dụ: Outlook, Google Calendar). - Điều hướng đến thứ Năm, tạo một cuộc họp vào lúc 2 giờ chiều và thêm người tham gia. - Tự động thích ứng với các thay đổi giao diện người dùng. Robot: Phân loại đối tượng LLM: Tạo ra các hướng dẫn viết chính xác cho việc phân loại đối tượng, chẳng hạn như xác định và tổ chức các thành phần màu đỏ. Operator với mô hình VLA: - Quan sát không gian làm việc trong thời gian thực. - Xác định các thành phần màu đỏ trong số các đối tượng hỗn hợp. - Lập kế hoạch các quỹ đạo không va chạm cho cánh tay robot. - Thực hiện các thao tác nhặt và đặt, điều chỉnh một cách linh hoạt theo các vị trí và hướng mới. Các mô hình VLA cuối cùng đã thu hẹp khoảng cách giữa AI có thể lý luận về thế giới và AI có thể thực sự thay đổi nó. Chúng là những gì biến tự động hóa từ việc tuân theo quy tắc mong manh thành giải quyết vấn đề thích ứng - những công nhân thông minh. "Các kịch bản truyền thống bị hỏng khi môi trường thay đổi, nhưng Operators sử dụng hiểu biết hình ảnh để thích ứng trong thời gian thực, xử lý các ngoại lệ thay vì bị sập."
1,34K