un'altra fuga di notizie alpha. stessa tecnica che abbiamo usato per KernelBench. è un approccio universale nella sua forma più semplice. gli esempi sono tutto ciò di cui hai bisogno: ottieni un buon risultato o un singolo miglioramento, aggiungi al contesto, ottieni più buoni risultati con un contesto migliorato, aggiungi quelli al contesto, ad inf...
Tooliense
Tooliense22 lug, 11:19
Recentemente OpenAI e Google hanno raggiunto la medaglia d'oro IMO con i loro nuovi modelli sperimentali. Ma il nostro team ha raggiunto lo stesso livello con solo o4-mini-high e i nostri sistemi agenti. E ora lo stiamo rendendo open source. In particolare, abbiamo ottenuto miglioramenti incredibili con i benchmark USAMO. La linea di base era quasi 0, ma il nostro agente ha ottenuto una media del 90%. Inoltre, siamo riusciti a dimostrare teoricamente i recenti articoli di arxiv semplicemente fornendo l'idea chiave della ricerca.
non ha senso allenare modelli piccoli davvero... è meglio trovare il programma ideale da fornire alle macchine più grandi. se vuoi la migliore distribuzione di output, devi trovare la distribuzione di input ideale, come la pratica. puoi arrivarci da zero purché tu abbia un modo per classificare i tuoi output. la tecnica di questi ragazzi sembra però sovra-ingegnerizzata, potrebbe essere molto più semplice.
La prima generazione di KernelBench su o3-mini. Abbiamo semplicemente chiamato questo "auto-miglioramento."
Lewis
Lewis30 apr 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
3,15K