Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro on Wyniki półprywatnej oceny ARC-AGI
ARC-AGI-1:
* Niski: 44%, 1,64 USD/zadanie
* Średni: 57%, 3,18 USD/zadanie
* Wysoki: 59%, 4,16 USD/zadanie
ARC-AGI-2:
* Wszystkie wysiłki związane z rozumowaniem: <5%, 4-7 USD/zadanie
Dania na wynos:
* O3-Pro zgodnie z wydajnością O3
* nowa cena o3 wyznacza ARC-AGI-1 Frontier
Należy zauważyć, że o3 Pro *nie* jest tym samym modelem, który testowaliśmy w grudniu '24 (o3-preview)
OpenAI wyraźnie to potwierdziło. Zobacz tweet referencyjny, aby uzyskać więcej informacji.

17 kwi 2025
Wyjaśnienie wydajności o3 ARC-AGI
OpenAI potwierdziło:
* Wydany o3 to inny model niż ten, który testowaliśmy w grudniu 2024 roku
* Wszystkie wydane warstwy obliczeniowe o3 są mniejsze niż testowana wersja
* Uwolniony o3 nie był trenowany na danych ARC-AGI, nawet na zestawie pociągu
* Wydany o3 jest dostrojony do użytku na czacie/produkcie, co wprowadza zarówno mocne, jak i słabe strony ARC-AGI
Do czego służy ARC Prize:
* Ponownie przetestujemy wydaną usługę o3 (wszystkie warstwy obliczeniowe) i opublikujemy zaktualizowane wyniki. Wcześniejsze wyniki będą oznaczone jako "wersja zapoznawcza"
* Przetestujemy i opublikujemy wyniki o4-mini tak szybko, jak to możliwe
* Przetestujemy o3-pro, gdy będzie dostępny
Wyniki o3 zostały zaktualizowane, aby odzwierciedlić 80% redukcję ceny.
Nowością na wykresie są punkty danych dla o3 (Wysokie rozumowanie) i o4-mini (Wysokie rozumowanie). Wcześniej zostały one wykluczone z powodu przekroczenia czasu modelu.
Nowy 'tryb w tle' OpenAI umożliwił nam przetwarzanie tych modeli w ustawieniach wysokiej mocy obliczeniowej.
Zobacz tabelę wyników:
Powtórz wyniki:
108,73K
Najlepsze
Ranking
Ulubione