o3 Pro trên kết quả đánh giá bán riêng tư ARC-AGI ARC-AGI-1: * Thấp: 44%, $ 1.64 / nhiệm vụ * Trung bình: 57%, $ 3.18 / nhiệm vụ * Cao: 59%, $ 4.16 / nhiệm vụ ARC-AGI-2: * Tất cả các nỗ lực lý luận: <5%, $ 4-7 / nhiệm vụ Bài học rút ra: * O3-Pro phù hợp với hiệu suất O3 * Giá mới của o3 thiết lập ARC-AGI-1 Frontier
Cần lưu ý, o3 Pro *không* phải là cùng một mẫu mà chúng tôi đã thử nghiệm vào tháng 12 năm 2024 (o3-preview) OpenAI đã xác nhận điều này một cách rõ ràng. Xem tweet tham khảo để biết thêm thông tin.
ARC Prize
ARC Prize17 thg 4, 2025
Làm rõ hiệu suất ARC-AGI của o3 OpenAI đã xác nhận: * Mô hình o3 được phát hành khác với mô hình mà chúng tôi đã thử nghiệm vào tháng 12 năm 2024 * Tất cả các cấp độ tính toán của o3 được phát hành đều nhỏ hơn phiên bản mà chúng tôi đã thử nghiệm * Mô hình o3 được phát hành không được huấn luyện trên dữ liệu ARC-AGI, thậm chí không phải tập huấn luyện * Mô hình o3 được phát hành được tối ưu hóa cho việc sử dụng trò chuyện/sản phẩm, điều này mang lại cả điểm mạnh và điểm yếu đối với ARC-AGI Những gì ARC Prize sẽ làm: * Chúng tôi sẽ thử nghiệm lại o3 được phát hành (tất cả các cấp độ tính toán) và công bố kết quả cập nhật. Điểm số trước đó sẽ được gắn nhãn "xem trước" * Chúng tôi sẽ thử nghiệm và công bố kết quả của o4-mini càng sớm càng tốt * Chúng tôi sẽ thử nghiệm o3-pro khi có sẵn
Kết quả o3 đã được cập nhật để phản ánh mức giảm 80% giá.
Điểm dữ liệu mới trên biểu đồ là o3 (Lý luận cao) và o4-mini (Lý luận cao). Chúng đã bị loại trừ trước đây do thời gian chờ của mô hình. Chế độ 'nền' mới của OpenAI đã cho phép chúng tôi xử lý các mô hình này với cài đặt tính toán cao.
Xem bảng xếp hạng: Tái tạo kết quả:
108,74K