Hoy, en @OpenAI logrado un hito que muchos consideraron a años de distancia: el rendimiento a nivel de medalla de oro en la OMI 2025 con un LLM de razonamiento general, bajo los mismos límites de tiempo que los humanos, sin herramientas. Por notable que parezca, es incluso más significativo que el titular 🧵
Alexander Wei
Alexander Wei19 jul, 15:50
1/N Me complace compartir que nuestro último @OpenAI LLM de razonamiento experimental ha logrado un gran desafío de larga data en IA: el rendimiento a nivel de medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).
Por lo general, para estos resultados de IA, como en Go / Dota / Poker / Diplomacy, los investigadores pasan años creando una IA que domina un dominio estrecho y hace poco más. Pero este no es un modelo específico de la OMI. Es un LLM de razonamiento que incorpora nuevas técnicas experimentales de propósito general.
Entonces, ¿qué es diferente? Desarrollamos nuevas técnicas que hacen que los LLM sean mucho mejores en tareas difíciles de verificar. Los problemas de la OMI fueron el desafío perfecto para esto: las pruebas tienen páginas y los expertos tardan horas en calificarlas. Compare eso con AIME, donde las respuestas son simplemente un número entero de 0 a 999.
Además, este modelo piensa durante *mucho* tiempo. o1 pensó por segundos. Investigación profunda durante minutos. Este piensa durante horas. Es importante destacar que también es más eficiente con su pensamiento. Y hay mucho espacio para impulsar aún más el cómputo y la eficiencia en tiempo de prueba.
Noam Brown
Noam Brown13 sept 2024
@OpenAI @rao2z @OpenAI o1 piensa por segundos, pero nuestro objetivo es que las versiones futuras piensen durante horas, días e incluso semanas. Los costos de inferencia serán más altos, pero ¿qué costo pagaría por un nuevo medicamento contra el cáncer? ¿Para baterías innovadoras? ¿Para una prueba de la hipótesis de Riemann? La IA puede ser más que chatbots
Vale la pena reflexionar sobre lo rápido que ha sido el progreso de la IA, especialmente en matemáticas. En 2024, los laboratorios de IA utilizaban las matemáticas de la escuela primaria (GSM8K) como evaluación en sus lanzamientos de modelos. Desde entonces, hemos saturado el punto de referencia MATH (de la escuela secundaria), luego AIME, y ahora estamos en IMO gold.
¿A dónde va esto? A pesar de lo rápido que ha sido el progreso reciente de la IA, espero que la tendencia continúe. Es importante destacar que creo que estamos cerca de que la IA contribuya sustancialmente al descubrimiento científico. Hay una gran diferencia entre la IA ligeramente por debajo del rendimiento humano superior y ligeramente por encima.
Este fue un pequeño esfuerzo de equipo dirigido por @alexwei_. Tomó una idea de investigación en la que pocos creían y la usó para lograr un resultado que pocos creían posible. Esto tampoco sería posible sin años de investigación + ingeniería de muchos en @OpenAI y la comunidad de IA en general.
Cuando trabajas en un laboratorio de frontera, generalmente sabes dónde están las capacidades de frontera meses antes que nadie. Pero este resultado es completamente nuevo, utilizando técnicas desarrolladas recientemente. Fue una sorpresa incluso para muchos investigadores de OpenAI. Hoy, todos pueden ver dónde está la frontera.
857.21K