DApp Store | Web3 Hub for hendelser og spill

Populære emner

Shane Gu

Tvillingene - RL, CoT, flerspråklighet. Seniorstab RS @GoogleDeepMind MTV. 🇯🇵 -født 🇨🇳🇨🇦 . eks: @OpenAI (JP: @shanegJP)

Shane Gu lagt ut på nytt

Nytt blogginnlegg om asymmetri i verifikasjon og «verifikatorloven»: Asymmetri i verifisering – ideen om at noen oppgaver er mye lettere å verifisere enn å løse – er i ferd med å bli en viktig idé ettersom vi har RL som endelig fungerer generelt. Gode eksempler på asymmetri i verifisering er ting som sudoku-gåter, å skrive koden for et nettsted som instagram og BrowseComp-problemer (tar ~100 nettsteder for å finne svaret, men lett å verifisere når du har svaret). Andre oppgaver har nesten symmetri av verifisering, som å summere to 900-sifrede tall eller noen databehandlingsskript. Likevel er andre oppgaver mye lettere å foreslå gjennomførbare løsninger for enn å verifisere dem (f.eks. faktasjekke et langt essay eller oppgi en ny diett som "bare spis bison"). En viktig ting å forstå om asymmetri i verifisering er at du kan forbedre asymmetrien ved å gjøre litt arbeid på forhånd. For eksempel hvis du har svarnøkkelen til en matematisk oppgave eller hvis du har testtilfeller for et Leetcode-problem. Dette øker settet med problemer med ønskelig verifiseringsasymmetri betraktelig. "Verifikatorloven" sier at det er enkelt å trene AI til å løse en oppgave er proporsjonalt med hvor verifiserbar oppgaven er. Alle oppgaver som er mulige å løse og enkle å verifisere vil bli løst av AI. Muligheten til å lære opp kunstig intelligens til å løse en oppgave er proporsjonal med om oppgaven har følgende egenskaper: 1. Objektiv sannhet: alle er enige om hva gode løsninger er 2. Rask å verifisere: enhver gitt løsning kan verifiseres på noen få sekunder 3. Skalerbar for å verifisere: mange løsninger kan verifiseres samtidig 4. Lav støy: verifiseringen er så tett korrelert til løsningskvaliteten som mulig 5. Kontinuerlig belønning: det er lett å rangere godheten til mange løsninger for et enkelt problem En åpenbar forekomst av verifikatorloven er det faktum at de fleste benchmarks som er foreslått i AI er enkle å verifisere og så langt har blitt løst. Legg merke til at praktisk talt alle populære benchmarks de siste ti årene passer til kriteriene #1-4; Benchmarks som ikke oppfyller kriteriene #1-4 vil slite med å bli populære. Hvorfor er verifiserbarhet så viktig? Mengden læring i AI som skjer maksimeres når kriteriene ovenfor er oppfylt; Du kan ta mange gradienttrinn der hvert trinn har mye signal. Hastigheten på iterasjonen er avgjørende – det er grunnen til at fremgangen i den digitale verden har vært så mye raskere enn fremgangen i den fysiske verden. AlphaEvolve fra Google er et av de beste eksemplene på å utnytte asymmetri i verifisering. Den fokuserer på oppsett som passer til alle de ovennevnte kriteriene, og har ført til en rekke fremskritt innen matematikk og andre felt. Forskjellig fra det vi har gjort innen AI de siste to tiårene, er det et nytt paradigme ved at alle problemer er optimalisert i en setting der togsettet tilsvarer testsettet. Asymmetri i verifisering er overalt, og det er spennende å tenke på en verden av taggete intelligens der alt vi kan måle vil bli løst.

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til