o3 Pro em resultados de avaliação semi-privada ARC-AGI ARC-AGI-1: * Baixo: 44%, US$ 1,64/tarefa * Médio: 57%, US$ 3,18/tarefa * Alta: 59%, US$ 4,16/tarefa ARC-AGI-2: * Todos os esforços de raciocínio: <5%, US$ 4-7/tarefa Takeaways: * O3-Pro em linha com o desempenho do O3 * O novo preço do o3 define o ARC-AGI-1 Frontier
Para notar, o o3 Pro *não* é o mesmo modelo que testamos em dezembro de 24 (o3-preview) A OpenAI confirmou isso explicitamente. Veja o tweet de referência para obter mais informações
ARC Prize
ARC Prize17 de abr. de 2025
Esclarecendo o desempenho ARC-AGI do o3 A OpenAI confirmou: * O o3 lançado é um modelo diferente do que testamos em dezembro de 2024 * Todas as camadas de computação o3 lançadas são menores do que a versão que testamos * O o3 liberado não foi treinado em dados ARC-AGI, nem mesmo no conjunto de trens * O o3 lançado é ajustado para uso em bate-papo/produto, o que apresenta pontos fortes e fracos no ARC-AGI O que o Prêmio ARC fará: * Testaremos novamente o o3 lançado (todas as camadas de computação) e publicaremos os resultados atualizados. As partituras anteriores serão rotuladas como "visualização" * Testaremos e divulgaremos os resultados do o4-mini o mais rápido possível * Testaremos o o3-pro assim que estiver disponível
Os resultados do O3 foram atualizados para refletir a redução de 80% no preço
Novos no gráfico são os pontos de dados para o3 (raciocínio alto) e o4-mini (raciocínio alto). Eles foram excluídos anteriormente devido ao tempo limite do modelo. O novo 'modo em segundo plano' da OpenAI nos permitiu processar esses modelos em configurações de computação altas.
Veja a tabela de classificação: Reproduza os resultados:
108,75K