Nok en alfalekkasje. samme teknikk som vi brukte for KernelBench. Det er en universell tilnærming i sin enkleste form. Eksempler er alt du trenger: få ett godt resultat eller én enkelt forbedring, legg til kontekst, få flere gode resultater med forbedret kontekst, legg dem til i kontekst, annonseinformasjon ...
Tooliense
Tooliense22. juli, 11:19
Nylig nådde Openai, Goolge IMOs gullmedalje med sine nye eksperimentelle modeller. Men teamet vårt nådde samme nivå med bare o4-mini-high og agentsystemene våre. Og nå åpner vi den. Spesielt fikk vi vanvittige forbedringer med USAMO-benchmarkene. Grunnlinjen var nesten 0, men agenten vår fikk gjennomsnittlig 90 %. Vi kan også teoretisk bevise de nylige arxiv-artiklene som bare gir nøkkelforskningens idé.
Det er ingen vits i å trene små modeller egentlig ... du er bedre å finne det ideelle programmet for å mate til de største maskinene. Hvis du vil ha den beste utgangsfordelingen, må du finne den ideelle inngangsdistribusjonen, som praksis. Du kan komme dit fra ingenting så lenge du har en måte å rangere resultatene dine på. Disse guttas teknikk virker overkonstruert, kan sannsynligvis være mye enklere.
KernelBenchs første generasjon på o3-mini. Vi kalte dette bare «selvforbedring».
Lewis
Lewis30. apr. 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
3,17K