Мой первый пост в @delphi_intel посвящен моделям видео на основе Генеративного ИИ. Резюме ниже (1/10)👇 Спасибо @moonshot6666 за его отзывы по этому эссе и @PJaccetturo за это классное рекламное видео, которое я без стыда украду. Кратко: видео отстают на 2-3 года от текста. Они становятся очень хорошими, очень быстро.
1. Люди — визуальные существа. Модальность контента Gen AI, вероятно, будет стремиться к распределению, аналогичному вебу:
2. Рынок большой: более 40 миллиардов долларов США к 2030 году (с соответствующими смежными областями). Дисрупция в маркетинге, развлечениях и образовании очевидна, но также есть четкие последствия в робототехнике, наблюдении и долгосрочных агентных задачах.
3. В ландшафте много конкуренции между стеками Включает модельные компании, многомодальные приложения, говорящие аватары, синхронизацию губ и многое другое. Не говоря уже обо всей инфраструктуре, необходимой для поддержки настоящих многомодальных моделей и приложений. s/o @venturetwins и @a16z за карту
4. Восток против Запада. Соревнование в значительной степени разделено между США и Китаем. В видео моделях Китай лидирует (9 из 15 лучших моделей) s/o @ArtificialAnlys
6. Преимущество крупных технологий: внедрение этих новых возможностей в экосистемы с более чем 1 миллиардом пользователей будет иметь высокий ROI Основываясь на приведенных ниже характеристиках, неудивительно, что крупные игроки, такие как $Goog, $meta, $techy, $baba и Bytedance, хорошо позиционированы.
7. Накопление стоимости: В то же время мы видим ниши по всему стеку - особенно в инфраструктуре и приложениях - где новые участники могут создать крупные бизнесы. (Да, вам нужно будет прочитать сам отчет для получения любой альфы, ленивый ублюдок)
8. Истинная мультимодальность Сегодня видеомодели выглядят как игрушка. Но видеоданные и симуляции становятся все более важным входом для долгосрочных агентных задач и в запуске революции в робототехнике. Видеомодели могут оказаться искрой.
1,26K