Esclarecendo o desempenho ARC-AGI do o3 A OpenAI confirmou: * O o3 lançado é um modelo diferente do que testamos em dezembro de 2024 * Todas as camadas de computação o3 lançadas são menores do que a versão que testamos * O o3 liberado não foi treinado em dados ARC-AGI, nem mesmo no conjunto de trens * O o3 lançado é ajustado para uso em bate-papo/produto, o que apresenta pontos fortes e fracos no ARC-AGI O que o Prêmio ARC fará: * Testaremos novamente o o3 lançado (todas as camadas de computação) e publicaremos os resultados atualizados. As partituras anteriores serão rotuladas como "visualização" * Testaremos e divulgaremos os resultados do o4-mini o mais rápido possível * Testaremos o o3-pro assim que estiver disponível
127,38K