разбор модели мира V-JEPA 2 от @k7agar углубление в архитектуру, которая позволила ей выполнять захват чашки с 65% успешностью упоминается 'проблема языковой цели', когда робот может понять, что ему нужно достичь, не будучи показанным изображение / несколько изображений было бы интересно исследовать децентрализованный подход к этому 1. модель мира генерирует итерации 'цели' 2. децентрализованная сеть проверяющих голосует за то, какая из них считается точной 'целью', например, идентификация сэндвича BLT ссылка ниже
557