Mitt første @delphi_intel innlegg er på Gen AI Video Models. Sammendrag nedenfor (1/10) 👇 s/o til @moonshot6666 for hans tilbakemelding på dette essayet og @PJaccetturo for denne dope hype-videoen jeg skamløst vil stjele. TLDR: videoer er 2-3 år bak teksten. De blir veldig gode, veldig raskt
1. Mennesker er visuelle skapninger. Gen AI-innholdsmodalitet vil sannsynligvis trende mot en distribusjon som ligner på nettet:
2. Markedet er stort: >40 milliarder dollar+ milliarder innen 2030 (med relevante tilstøtende områder). Forstyrrelsen i markedsføring, underholdning og utdanning er åpenbar, men også klare implikasjoner i robotikk, overvåking og langsiktige agentiske oppgaver
3. Landskap har mye cross-stack-konkurranse Inkluderer modellselskaper, multimodale apper, snakkende avatarer, leppesynkronisering og mer. For ikke å snakke om all infrastrukturen som kreves for å drive ekte multimodale modeller og apper. s/o til @venturetwins og @a16z for kartet
4. Øst mot vest. Kappløpet er i stor grad delt mellom USA og Kina. I videomodeller er Kina ledende (9 av de 15 beste modellene) s/o @ArtificialAnlys
6. Big Tech Advantage: Å sende disse nye funksjonene til >1b-brukerøkosystemer vil gi høy avkastning Basert på attributtene nedenfor, er det ikke sjokkerende at store spillere som $Goog, $meta, $techy, $baba og Bytedance er godt posisjonert.
7. Verdiopptjening: Samtidig ser vi lommer på tvers av stabelen - spesielt innen infrastruktur og apper - der nye aktører kan skille ut store bedrifter (Ja, du må lese den faktiske rapporten for enhver alfa, lat rumpe)
8. Ekte multimodalitet I dag ser videomodeller ut som et leketøy. Men videodata og simuleringer er en stadig viktigere inngang for langvarige agentiske oppgaver og for å kickstarte robotrevolusjonen. Videomodeller kan bare vise gnisten.
1,25K