phân tích mô hình thế giới V-JEPA 2 bởi @k7agar đi sâu vào kiến trúc đã giúp nó thực hiện việc nắm cốc với tỷ lệ thành công 65% đề cập đến 'vấn đề mục tiêu ngôn ngữ' nơi robot có thể hiểu những gì nó cần đạt được mà không cần được chỉ cho một bức ảnh / nhiều bức ảnh sẽ rất thú vị khi khám phá một cách tiếp cận phi tập trung cho điều đó 1. mô hình thế giới tạo ra các phiên bản của 'mục tiêu' 2. mạng xác minh phi tập trung bỏ phiếu về cái nào được coi là 'mục tiêu' chính xác, ví dụ như xác định bánh mì kẹp BLT liên kết bên dưới
560