DApp Store | Sede de Web3 para eventos y juegos

Hoy, en @OpenAI logramos un hito que muchos consideraban a años de distancia: un rendimiento de nivel medalla de oro en la IMO 2025 con un LLM de razonamiento general—bajo los mismos límites de tiempo que los humanos, sin herramientas. Por impresionante que suene, es aún más significativo que el titular 🧵

Típicamente, para estos resultados de IA, como en Go/Dota/Póker/Diplomacia, los investigadores pasan años creando una IA que domina un dominio específico y hace poco más. Pero este no es un modelo específico de IMO. Es un LLM de razonamiento que incorpora nuevas técnicas experimentales de propósito general.

¿Entonces, qué es diferente? Hemos desarrollado nuevas técnicas que hacen que los LLM sean mucho mejores en tareas difíciles de verificar. En mi opinión, los problemas eran el desafío perfecto para esto: las pruebas son páginas largas y tardan horas en ser calificadas por expertos. Compáralo con AIME, donde las respuestas son simplemente un entero del 0 al 999.

Además, este modelo piensa durante un *largo* tiempo. o1 pensó durante segundos. Deep Research durante minutos. Este piensa durante horas. Lo importante es que también es más eficiente en su pensamiento. Y hay mucho margen para aumentar aún más la computación y la eficiencia en el tiempo de prueba.

Vale la pena reflexionar sobre lo rápido que ha sido el progreso de la IA, especialmente en matemáticas. En 2024, los laboratorios de IA estaban utilizando matemáticas de escuela primaria (GSM8K) como evaluación en sus lanzamientos de modelos. Desde entonces, hemos saturado el estándar MATH (de secundaria), luego AIME, y ahora estamos en el oro de la IMO.

¿A dónde va esto? Tan rápido como ha sido el progreso reciente de la IA, espero que la tendencia continúe. Es importante, creo que estamos cerca de que la IA contribuya sustancialmente al descubrimiento científico. Hay una gran diferencia entre la IA que está ligeramente por debajo del rendimiento humano superior y la que está ligeramente por encima.

Este fue un esfuerzo de un pequeño equipo liderado por @alexwei_. Tomó una idea de investigación en la que pocos creían y la utilizó para lograr un resultado que aún menos pensaban que era posible. Esto tampoco habría sido posible sin años de investigación y ingeniería de muchos en @OpenAI y la comunidad de IA en general.

Cuando trabajas en un laboratorio de vanguardia, generalmente sabes dónde están las capacidades de vanguardia meses antes que nadie. Pero este resultado es completamente nuevo, utilizando técnicas recientemente desarrolladas. Fue una sorpresa incluso para muchos investigadores de OpenAI. Hoy, todos pueden ver dónde está la vanguardia.