Najtrudniejszy egzamin z matematyki w szkole średniej na świecie, 6 zadań w 9 godzin na IMO 2025, odbył się w tym tygodniu. Modele AI wypadły słabo. Gemini 2.5 Pro uzyskał najwyższy wynik, tylko 13/42, kosztując 431,97 $, w najlepszej ocenie z 32. Próg brązowy wynosił 19. Długa droga przed AI, aby rozwiązać trudną matematykę.
Oto piękniejsza wizualizacja wydajności modelu na MathArena
P6 był zdecydowanie najtrudniejszym i najciekawszym problemem. Większość ludzi może go zrozumieć, ale bardzo niewielu potrafi go rozwiązać. Wszystkie modele uzyskały 0/7.
Mała korekta:
Alexander Wei
Alexander Wei14 godz. temu
1/N Cieszę się, że mogę podzielić się informacją, że nasz najnowszy eksperymentalny model LLM @OpenAI osiągnął długo oczekiwane wyzwanie w AI: poziom złotego medalu w najbardziej prestiżowych zawodach matematycznych na świecie—Międzynarodowej Olimpiadzie Matematycznej (IMO).
76,36K