Sklep DApp | Centrum Web3 dla wydarzeń i gier

Dziś w @OpenAI osiągnęliśmy kamień milowy, który wielu uważało za odległy o lata: osiągnięcie poziomu złotego medalu na 2025 IMO z ogólnym modelem LLM do rozumowania — w tych samych ograniczeniach czasowych co ludzie, bez narzędzi. Tak niezwykłe, jak to brzmi, jest to jeszcze bardziej znaczące niż nagłówek 🧵

Typowo w przypadku tych wyników AI, jak w Go/Dota/Poker/Dyplomacji, badacze spędzają lata, tworząc AI, które opanowuje jedną wąską dziedzinę i niewiele więcej. Ale to nie jest model specyficzny dla IMO. To reasoning LLM, który włącza nowe eksperymentalne techniki ogólnego przeznaczenia.

Co więc się zmieniło? Opracowaliśmy nowe techniki, które sprawiają, że LLM-y są znacznie lepsze w trudnych do weryfikacji zadaniach. IMO problemy były idealnym wyzwaniem dla tego: dowody mają długość stron i zajmują ekspertom godziny na ocenę. Porównaj to z AIME, gdzie odpowiedzi to po prostu liczba całkowita od 0 do 999.

Ten model myśli przez *długi* czas. o1 myślał przez sekundy. Głębokie badania przez minuty. Ten myśli przez godziny. Co ważne, jest również bardziej efektywny w swoim myśleniu. I jest wiele miejsca, aby jeszcze bardziej zwiększyć obliczenia i efektywność w czasie testu.

Warto zastanowić się, jak szybki był postęp AI, szczególnie w matematyce. W 2024 roku laboratoria AI używały matematyki na poziomie szkoły podstawowej (GSM8K) jako oceny w swoich wydaniach modeli. Od tego czasu osiągnęliśmy nasycenie benchmarku MATH (szkoła średnia), potem AIME, a teraz jesteśmy na poziomie złota IMO.

Gdzie to prowadzi? Tak szybko, jak postęp w dziedzinie AI był ostatnio, w pełni oczekuję, że trend ten będzie się utrzymywał. Co ważne, myślę, że jesteśmy blisko momentu, w którym AI znacznie przyczyni się do odkryć naukowych. Istnieje duża różnica między AI, które jest nieco poniżej najlepszej ludzkiej wydajności, a tym, które jest nieco powyżej.

To był mały zespół, który prowadził @alexwei_. Wziął pomysł badawczy, w który niewielu wierzyło, i wykorzystał go, aby osiągnąć wynik, który jeszcze mniej osób uważało za możliwy. To również nie byłoby możliwe bez lat badań i inżynierii wielu osób z @OpenAI oraz szerszej społeczności AI.

Kiedy pracujesz w laboratorium na czołowej pozycji, zazwyczaj wiesz, gdzie znajdują się najnowsze możliwości, miesiące przed innymi. Ale ten wynik jest zupełnie nowy, wykorzystujący niedawno opracowane techniki. To było zaskoczenie nawet dla wielu badaczy w OpenAI. Dziś wszyscy mogą zobaczyć, gdzie znajduje się ta granica.