Ujian matematika sekolah menengah tersulit di dunia, 6 soal 9 jam IMO 2025, adalah minggu ini. Model AI berkinerja buruk. Gemini 2.5 Pro mencetak skor tertinggi, hanya 13/42, seharga $431.97, dalam eval terbaik 32. Batas perunggu adalah 19. Jalan panjang untuk AI untuk memecahkan Matematika yang sulit.
Berikut adalah visualisasi kinerja model yang lebih indah di MathArena
P6 jelas merupakan masalah tersulit dan paling menarik. Kebanyakan orang dapat memahaminya, tetapi sangat sedikit yang dapat menyelesaikannya. Semua model mendapat skor 0/7.
Koreksi kecil:
Alexander Wei
Alexander Wei14 jam lalu
1/N Saya senang berbagi bahwa penalaran @OpenAI eksperimental terbaru kami LLM telah mencapai tantangan besar yang sudah lama ada di AI: kinerja tingkat medali emas pada kompetisi matematika paling bergengsi di dunia—Olimpiade Matematika Internasional (IMO).
76,36K