DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Shane Gu

Gemeni - RL, CoT, multilingv. Personalul superior RS @GoogleDeepMind MTV. 🇯🇵 -născut 🇨🇳🇨🇦 . ex: @OpenAI (JP: @shanegJP)

Shane Gu a repostat

O nouă postare pe blog despre asimetria verificării și "legea verificatorului": Asimetria verificării – ideea că unele sarcini sunt mult mai ușor de verificat decât de rezolvat – devine o idee importantă, deoarece avem RL care funcționează în sfârșit în general. Exemple grozave de asimetrie a verificării sunt lucruri precum puzzle-urile sudoku, scrierea codului pentru un site web precum instagram și problemele BrowseComp (durează ~ 100 de site-uri web pentru a găsi răspunsul, dar ușor de verificat odată ce aveți răspunsul). Alte sarcini au aproape simetrie de verificare, cum ar fi însumarea a două numere de 900 de cifre sau unele scripturi de procesare a datelor. Cu toate acestea, alte sarcini sunt mult mai ușor de propus soluții fezabile decât de a le verifica (de exemplu, verificarea unui eseu lung sau afirmarea unei noi diete precum "mănâncă doar bizoni"). Un lucru important de înțeles despre asimetria verificării este că puteți îmbunătăți asimetria făcând ceva muncă în prealabil. De exemplu, dacă aveți cheia de răspuns la o problemă de matematică sau dacă aveți cazuri de testare pentru o problemă Leetcode. Acest lucru crește foarte mult setul de probleme cu asimetria de verificare dezirabilă. "Legea verificatorului" afirmă că ușurința de a antrena AI pentru a rezolva o sarcină este proporțională cu cât de verificabilă este sarcina. Toate sarcinile care sunt posibile de rezolvat și ușor de verificat vor fi rezolvate de AI. Capacitatea de a antrena AI pentru a rezolva o sarcină este proporțională cu faptul dacă sarcina are următoarele proprietăți: 1. Adevărul obiectiv: toată lumea este de acord ce sunt soluțiile bune 2. Rapid de verificat: orice soluție dată poate fi verificată în câteva secunde 3. Scalabil de verificat: multe soluții pot fi verificate simultan 4. Zgomot redus: verificarea este cât se poate de strâns corelată cu calitatea soluției 5. Recompensă continuă: este ușor să clasifici bunătatea mai multor soluții pentru o singură problemă O instanțiere evidentă a legii verificatorului este faptul că majoritatea benchmark-urilor propuse în AI sunt ușor de verificat și până acum au fost rezolvate. Observați că practic toate reperele populare din ultimii zece ani se încadrează în criteriile #1-4; Benchmark-urile care nu îndeplinesc criteriile #1-4 ar avea dificultăți să devină populare. De ce este atât de importantă verificabilitatea? Cantitatea de învățare în AI care are loc este maximizată atunci când sunt îndeplinite criteriile de mai sus; Puteți face o mulțime de pași de gradient în care fiecare pas are mult semnal. Viteza de iterație este critică – este motivul pentru care progresul în lumea digitală a fost mult mai rapid decât progresul în lumea fizică. AlphaEvolve de la Google este unul dintre cele mai bune exemple de valorificare a asimetriei de verificare. Se concentrează pe configurații care se potrivesc tuturor criteriilor de mai sus și a dus la o serie de progrese în matematică și în alte domenii. Spre deosebire de ceea ce am făcut în AI în ultimele două decenii, este o nouă paradigmă în sensul că toate problemele sunt optimizate într-un cadru în care trenul este echivalent cu setul de testare. Asimetria verificării este peste tot și este interesant să luăm în considerare o lume a inteligenței zimțate în care orice putem măsura va fi rezolvat.

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante