Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro em ARC-AGI Semi Private Eval Resultados
ARC-AGI-1:
* Baixo: 44%, $1.64/tarefa
* Médio: 57%, $3.18/tarefa
* Alta: 59%, $ 4.16 / tarefa
ARC-AGI-2:
* Todos os esforços de raciocínio: <5%, $4-7/tarefa
Conclusões:
* O3-Pro em linha com o desempenho O3
* O novo preço da o3 define a fronteira ARC-AGI-1
A notar, o o3 Pro *não* é o mesmo modelo que testámos em Dez ‘24 (o3-preview)
A OpenAI confirmou explicitamente isso. Veja o tweet de referência para mais informações.

17/04/2025
Clarificando o desempenho ARC-AGI da o3
A OpenAI confirmou:
* O o3 lançado é um modelo diferente do que testamos em dezembro de 2024
* Todas as camadas de computação o3 lançadas são menores do que a versão que testamos
* O o3 liberado não foi treinado em dados ARC-AGI, nem mesmo o conjunto de trens
* O o3 lançado é ajustado para uso de chat/produto, o que introduz pontos fortes e fracos no ARC-AGI
O que o Prêmio ARC fará:
* Vamos testar novamente o o3 lançado (todos os níveis de computação) e publicar resultados atualizados. As pontuações anteriores serão rotuladas como "visualização"
* Vamos testar e liberar o4-mini resultados o mais rápido possível
* Vamos testar o o3-pro uma vez disponível
os resultados do o3 foram atualizados para refletir a redução de 80% no preço
Novos no gráfico estão os pontos de dados para o3 (Raciocínio elevado) e o4-mini (Raciocínio elevado). Eles foram anteriormente excluídos devido a tempos limite do modelo.
O novo 'modo de fundo' da OpenAI nos permitiu processar esses modelos em configurações de alta computação.
Veja o quadro de líderes:
Reproduzir resultados:
108,74K
Top
Classificação
Favoritos