Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro em resultados de avaliação semi-privada ARC-AGI
ARC-AGI-1:
* Baixo: 44%, US$ 1,64/tarefa
* Médio: 57%, US$ 3,18/tarefa
* Alta: 59%, US$ 4,16/tarefa
ARC-AGI-2:
* Todos os esforços de raciocínio: <5%, US$ 4-7/tarefa
Takeaways:
* O3-Pro em linha com o desempenho do O3
* O novo preço do o3 define o ARC-AGI-1 Frontier
Para notar, o o3 Pro *não* é o mesmo modelo que testamos em dezembro de 24 (o3-preview)
A OpenAI confirmou isso explicitamente. Veja o tweet de referência para obter mais informações

17 de abr. de 2025
Esclarecendo o desempenho ARC-AGI do o3
A OpenAI confirmou:
* O o3 lançado é um modelo diferente do que testamos em dezembro de 2024
* Todas as camadas de computação o3 lançadas são menores do que a versão que testamos
* O o3 liberado não foi treinado em dados ARC-AGI, nem mesmo no conjunto de trens
* O o3 lançado é ajustado para uso em bate-papo/produto, o que apresenta pontos fortes e fracos no ARC-AGI
O que o Prêmio ARC fará:
* Testaremos novamente o o3 lançado (todas as camadas de computação) e publicaremos os resultados atualizados. As partituras anteriores serão rotuladas como "visualização"
* Testaremos e divulgaremos os resultados do o4-mini o mais rápido possível
* Testaremos o o3-pro assim que estiver disponível
Os resultados do O3 foram atualizados para refletir a redução de 80% no preço
Novos no gráfico são os pontos de dados para o3 (raciocínio alto) e o4-mini (raciocínio alto). Eles foram excluídos anteriormente devido ao tempo limite do modelo.
O novo 'modo em segundo plano' da OpenAI nos permitiu processar esses modelos em configurações de computação altas.
Veja a tabela de classificação:
Reproduza os resultados:
108,75K
Melhores
Classificação
Favoritos