o3 Pro em ARC-AGI Semi Private Eval Resultados ARC-AGI-1: * Baixo: 44%, $1.64/tarefa * Médio: 57%, $3.18/tarefa * Alta: 59%, $ 4.16 / tarefa ARC-AGI-2: * Todos os esforços de raciocínio: <5%, $4-7/tarefa Conclusões: * O3-Pro em linha com o desempenho O3 * O novo preço da o3 define a fronteira ARC-AGI-1
A notar, o o3 Pro *não* é o mesmo modelo que testámos em Dez ‘24 (o3-preview) A OpenAI confirmou explicitamente isso. Veja o tweet de referência para mais informações.
ARC Prize
ARC Prize17/04/2025
Clarificando o desempenho ARC-AGI da o3 A OpenAI confirmou: * O o3 lançado é um modelo diferente do que testamos em dezembro de 2024 * Todas as camadas de computação o3 lançadas são menores do que a versão que testamos * O o3 liberado não foi treinado em dados ARC-AGI, nem mesmo o conjunto de trens * O o3 lançado é ajustado para uso de chat/produto, o que introduz pontos fortes e fracos no ARC-AGI O que o Prêmio ARC fará: * Vamos testar novamente o o3 lançado (todos os níveis de computação) e publicar resultados atualizados. As pontuações anteriores serão rotuladas como "visualização" * Vamos testar e liberar o4-mini resultados o mais rápido possível * Vamos testar o o3-pro uma vez disponível
os resultados do o3 foram atualizados para refletir a redução de 80% no preço
Novos no gráfico estão os pontos de dados para o3 (Raciocínio elevado) e o4-mini (Raciocínio elevado). Eles foram anteriormente excluídos devido a tempos limite do modelo. O novo 'modo de fundo' da OpenAI nos permitiu processar esses modelos em configurações de alta computação.
Veja o quadro de líderes: Reproduzir resultados:
108,74K