Clarificación del rendimiento ARC-AGI de o3 OpenAI ha confirmado: * El o3 lanzado es un modelo diferente al que probamos en diciembre de 2024 * Todos los niveles de cómputo de O3 publicados son más pequeños que la versión que probamos * El o3 liberado no fue entrenado con datos ARC-AGI, ni siquiera el conjunto de trenes * El o3 lanzado está ajustado para el uso de chat/producto, lo que presenta tanto fortalezas como debilidades en ARC-AGI Lo que hará el Premio ARC: * Volveremos a probar el o3 publicado (todos los niveles de cómputo) y publicaremos los resultados actualizados. Las puntuaciones anteriores se etiquetarán como "vista previa" * Probaremos y publicaremos los resultados de o4-mini tan pronto como sea posible * Probaremos o3-pro una vez que esté disponible
127,38K