o3 Pro on Wyniki półprywatnej oceny ARC-AGI ARC-AGI-1: * Niski: 44%, 1,64 USD/zadanie * Średni: 57%, 3,18 USD/zadanie * Wysoki: 59%, 4,16 USD/zadanie ARC-AGI-2: * Wszystkie wysiłki związane z rozumowaniem: <5%, 4-7 USD/zadanie Dania na wynos: * O3-Pro zgodnie z wydajnością O3 * nowa cena o3 wyznacza ARC-AGI-1 Frontier
Należy zauważyć, że o3 Pro *nie* jest tym samym modelem, który testowaliśmy w grudniu '24 (o3-preview) OpenAI wyraźnie to potwierdziło. Zobacz tweet referencyjny, aby uzyskać więcej informacji.
ARC Prize
ARC Prize17 kwi 2025
Wyjaśnienie wydajności o3 ARC-AGI OpenAI potwierdziło: * Wydany o3 to inny model niż ten, który testowaliśmy w grudniu 2024 roku * Wszystkie wydane warstwy obliczeniowe o3 są mniejsze niż testowana wersja * Uwolniony o3 nie był trenowany na danych ARC-AGI, nawet na zestawie pociągu * Wydany o3 jest dostrojony do użytku na czacie/produkcie, co wprowadza zarówno mocne, jak i słabe strony ARC-AGI Do czego służy ARC Prize: * Ponownie przetestujemy wydaną usługę o3 (wszystkie warstwy obliczeniowe) i opublikujemy zaktualizowane wyniki. Wcześniejsze wyniki będą oznaczone jako "wersja zapoznawcza" * Przetestujemy i opublikujemy wyniki o4-mini tak szybko, jak to możliwe * Przetestujemy o3-pro, gdy będzie dostępny
Wyniki o3 zostały zaktualizowane, aby odzwierciedlić 80% redukcję ceny.
Nowością na wykresie są punkty danych dla o3 (Wysokie rozumowanie) i o4-mini (Wysokie rozumowanie). Wcześniej zostały one wykluczone z powodu przekroczenia czasu modelu. Nowy 'tryb w tle' OpenAI umożliwił nam przetwarzanie tych modeli w ustawieniach wysokiej mocy obliczeniowej.
Zobacz tabelę wyników: Powtórz wyniki:
108,73K