Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Clădirea @EurekaLabsAI. Anterior Director AI @ Tesla, echipa fondatoare @ OpenAI, CS231n/PhD @ Stanford. Îmi place să antrenez rețele neuronale profunde 🧠🤖💥 mari
Modele video de difuzie, dar acum - **în timp real**!
Filtrele video simple sunt în timp real, dar pot face doar recolorări și stiluri de bază. Modelele de difuzie video (Veo și prietenii) sunt magice, dar durează multe secunde/minute pentru a fi generate. MirageLSD este magie în timp real. Spre deosebire de filtrele video simple, modelele de difuzie înțeleg de fapt la ce se uită, astfel încât să poată stiliza toate părțile fluxului în mod inteligent (de exemplu, punând pălării pe cap sau săbii laser în mâini etc.). Și sunt direcționabile în mod arbitrar, de exemplu prin solicitări text.
Filtrele video personalizabile și inteligente deblochează multe idei interesante în timp:
- transformați fluxurile camerei în realități alternative
- Regizează și filmează propriile filme, jucând scene cu recuzită. În timp real => feedback/revizuire instantanee.
- Codificați jocurile în jurul unor sfere/blocuri simple, apoi utilizați un model de difuzie în timp real pentru a textura jocul pentru a-l face frumos.
- stilizați și personalizați orice flux video: jocuri, videoclipuri, ... de exemplu, Skyrim, dar "MAI EPIC"? DOOM II, dar calitatea modernă a motorului Unreal cu doar un prompt? Film de groază, dar "drăguț, roz și doar iepurași"? Nu ştiu!
- fundaluri de apel zoom+++
- Probați hainele în timp real virtual
- ochelari: de exemplu, vă caricaturează viziunea în timp real?
- acum putem construi Harry Potter Mirror of Erised, arătând "hrana brută" a ta în oglindă, dar augmentată cu cele mai profunde dorințe ale tale (așa cum este dedusă de AI).
- Nu știu, probabil că îmi lipsește cel mai mare, atât de multe lucruri!
(Dezvăluire: Sunt un investitor providențial (foarte mic) în Decart, am fost entuziasmat pentru că această tehnologie va deveni foarte bună foarte repede și se simte generală, puternică, dar este, de asemenea, foarte dificilă din punct de vedere tehnic. Felicitări pentru lansare echipei!)

Decart18 iul., 04:44
Vă prezentăm MirageLSD: Primul model AI de difuzare în flux live (LSD)
Introduceți orice flux video, de la o cameră sau un chat video la un ecran de computer sau un joc și transformați-l în orice lume doriți, în timp real (latență de <40 ms).
Iată cum funcționează (cu demo pe care îl puteți folosi!):
347,63K
De multe ori vorbesc despre faptul că 99% din atenție este pe cale să fie atenție LLM în loc de atenție umană. Cum arată o lucrare de cercetare pentru un LLM în loc de un om? Cu siguranță nu este un pdf. Există un spațiu imens pentru o "aplicație de cercetare" extrem de valoroasă care își dă seama de acest lucru.

Michael Levin10 iul., 22:47
Sunt constant iritat că nu am timp să citesc torentul de lucrări interesante care vin din ce în ce mai repede de la oameni minunați din domenii relevante. Alți oameni de știință au aceeași problemă și nu au timp să citească majoritatea lucrărilor mele conceptuale lungi. Deci, pentru cine scriem aceste lucrări?
Cred că, cel puțin până când vor cădea în aceeași problemă din propria lor muncă, AI vor fi singurii care vor avea lățimea de bandă pentru a citi toate aceste lucruri. Nu vorbesc în mod specific despre modelele lingvistice de astăzi - să presupunem că ne referim la orice inteligență artificială inevitabilă care apare, care este capabilă să citească literatura și să aibă impact asupra cercetării (fie vorbind cu oamenii, fie rulând platforme de automatizare a laboratorului/roboți științifici).
Deci: cum ar trebui să scriem, știind că o mare parte din publicul nostru va fi AI (plus cyborgi, hybrots, oameni augmentați etc.)? Poate că este prea devreme pentru a ști ce să facem, dar ar fi bine să începem să ne gândim la asta, pentru că presupunerea că publicul nostru va fi întotdeauna oamenii de astăzi pare de neconceput. Luând în serios ideea că într-o zi publicul de impact va fi foarte diferit și că lucrurile pe care le scriem acum sunt într-un fel un set de antrenament pentru ființe viitoare cu adevărat diverse, cum se schimbă scrisul nostru? Sau nu?
Ce spui @danfaggella @mpshanahan @Plinz @blaiseaguera ?
498,07K
Cum să construiești o comunitate open source înfloritoare scriind cod așa cum fac 🦠 bacteriile. Codul bacterian (genomi) este:
- mic (fiecare linie de cod costă energie)
- modular (organizat în grupuri de operoni interschimbabili)
- autonom (ușor de "copiat" prin transfer orizontal de gene)
Dacă bucățile de cod sunt mici, modulare, autonome și triviale de copiat și lipit, comunitatea poate prospera prin transfer orizontal de gene. Pentru orice funcție (genă) sau clasă (operon) pe care o scrieți: vă puteți imagina pe cineva făcând "yoink" fără să vă cunoască restul codului sau să fie nevoit să importe ceva nou, pentru a obține un beneficiu? Ar putea codul tău să fie o tendință GitHub?
Acest ghid de stil de codare a permis bacteriilor să colonizeze fiecare colț ecologic, de la rece la cald, acid sau alcalin, în adâncurile Pământului și vidul spațiului, împreună cu o diversitate nebună de anabolism al carbonului, metabolismul energetic etc. Excelează la prototiparea rapidă, dar... nu poate construi o viață complexă. Prin comparație, genomul eucariot este un monorepo semnificativ mai mare, mai complex, organizat și cuplat. Semnificativ mai puțin inventiv, dar necesar pentru o viață complexă - pentru construirea de organe întregi și coordonarea activității lor. Cu avantajul nostru de design inteligent, ar trebui să fie posibil să profităm de ambele. Construiți o coloană vertebrală monorepo eucariotă dacă trebuie, dar maximizați ADN-ul bacterian.

538,72K
Cursa pentru "nucleul cognitiv" LLM - un model de câteva miliarde de param care sacrifică la maximum cunoștințele enciclopedice pentru capacitate. Trăiește mereu pornit și implicit pe fiecare computer ca nucleu al calculului personal LLM.
Caracteristicile sale se cristalizează încet:
- Text/viziune/audio multimodal nativ atât la intrare, cât și la ieșire.
- Arhitectură în stil Matryoshka care permite un cadran al capacității în sus și în jos în timpul testului.
- Raționament, de asemenea cu cadran (sistem 2)
- Utilizarea agresivă a uneltelor.
- Reglarea fină a sloturilor LoRA pe dispozitiv pentru instruire, personalizare și personalizare în timpul testului.
- Delegă și verifică doar părțile potrivite cu oracolele din cloud dacă internetul este disponibil.
Nu știe că domnia lui William Cuceritorul s-a încheiat la 9 septembrie 1087, dar recunoaște vag numele și poate căuta data. Nu poate recita SHA-256 al șirului gol ca e3b0c442..., dar îl poate calcula rapid dacă îl doriți cu adevărat.
Ceea ce îi lipsește computerului personal LLM în cunoștințe largi despre lume și capacitate de rezolvare a problemelor de top va compensa prin latență de interacțiune foarte scăzută (mai ales pe măsură ce multimodalul se maturizează), acces direct / privat la date și stat, continuitate offline, suveranitate ("nu greutățile tale, nu creierul tău"). adică multe dintre aceleași motive pentru care ne place, folosim și cumpărăm computere personale în loc să avem clienți subțiri care accesează un cloud prin desktop la distanță sau așa ceva.
1,03M
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante