Die schwierigste Mathematikprüfung der Welt für die Oberstufe, die 6 Probleme in 9 Stunden der IMO 2025, fand diese Woche statt. KI-Modelle schnitten schlecht ab. Gemini 2.5 Pro erzielte mit 13/42 die höchste Punktzahl, was 431,97 $ kostete, in einer Best-of-32-Bewertung. Der Bronze-Cutoff lag bei 19. Es ist noch ein langer Weg für KI, um schwierige Mathematik zu lösen.
Hier ist eine schönere Visualisierung der Modellleistung auf MathArena.
P6 war definitiv das schwierigste und interessanteste Problem. Die meisten Menschen können es verstehen, aber nur sehr wenige können es lösen. Alle Modelle erzielten 0/7.
Kleine Korrektur:
Alexander Wei
Alexander WeiVor 10 Stunden
1/N Ich freue mich, mitteilen zu können, dass unser neuestes experimentelles Reasoning-LLM von @OpenAI eine langjährige große Herausforderung in der KI erreicht hat: eine Goldmedaille auf dem weltweit prestigeträchtigsten Mathematikwettbewerb – der Internationalen Mathematik-Olympiade (IMO).
76,35K