Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O altă scurgere alfa. aceeași tehnică pe care am folosit-o pentru KernelBench. este o abordare universală în forma sa cea mai simplă.
Exemplele sunt tot ce aveți nevoie: obțineți un rezultat bun sau o singură îmbunătățire, adăugați la context, obțineți mai multe rezultate bune cu context îmbunătățit, adăugați-le la context, ...


22 iul., 11:19
Recent Openai, Goolge a ajuns la medalia de aur IMO cu noile lor modele experimentale.
Dar echipa noastră a ajuns la același nivel cu doar o4-mini-high și sistemele noastre de agenți. Și acum îl deschidem.
Mai ales am obținut îmbunătățiri nebunești cu benchmark-urile USAMO. Linia de bază a fost aproape 0, dar agentul nostru a obținut o medie de 90%.
De asemenea, am putea dovedi teoretic lucrările recente arxiv care dau doar ideea cheie de cercetare.

Nu are rost să antrenăm modele mici, într-adevăr... este mai bine să găsiți programul ideal pentru a alimenta cele mai mari mașini.
Dacă doriți cea mai bună distribuție de ieșire, trebuie să găsiți distribuția ideală de intrare, cum ar fi practica.
Puteți ajunge acolo din nimic, atâta timp cât aveți o modalitate de a vă clasifica rezultatele.
Tehnica acestor tipi pare supraproiectată, deși poate fi probabil mult mai simplă.
Prima generație a KernelBench pe o3-mini. Am numit asta doar "auto-îmbunătățire".


30 apr. 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched).
would be grateful for any help reviewing the optimized KernelBench kernels at .
thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.

3,17K
Limită superioară
Clasament
Favorite