Hôm nay, chúng tôi tại @OpenAI đã đạt được một cột mốc mà nhiều người cho là còn nhiều năm nữa mới có thể đạt được: hiệu suất đạt huy chương vàng tại IMO 2025 với một LLM lý luận tổng quát—dưới cùng thời gian giới hạn như con người, không có công cụ. Dù nghe có vẻ đáng kinh ngạc, nhưng điều này còn quan trọng hơn cả tiêu đề 🧵
Alexander Wei
Alexander Wei15:50 19 thg 7
1/N Tôi rất vui mừng khi chia sẻ rằng mô hình LLM lý luận thử nghiệm mới nhất của @OpenAI đã đạt được một thách thức lớn trong AI: hiệu suất đạt huy chương vàng tại cuộc thi toán học danh giá nhất thế giới - Olympic Toán học Quốc tế (IMO).
Thông thường, đối với những kết quả AI như trong Go/Dota/Poker/Diplomacy, các nhà nghiên cứu mất nhiều năm để tạo ra một AI thành thạo trong một lĩnh vực hẹp và không làm được gì khác. Nhưng đây không phải là một mô hình cụ thể cho IMO. Đây là một LLM lý luận kết hợp các kỹ thuật tổng quát mới đang thử nghiệm.
Vậy điều gì khác biệt? Chúng tôi đã phát triển những kỹ thuật mới giúp LLMs tốt hơn rất nhiều trong các nhiệm vụ khó xác minh. Theo ý kiến của tôi, các bài toán là thử thách hoàn hảo cho điều này: các chứng minh dài hàng trang và mất hàng giờ cho các chuyên gia để chấm điểm. So sánh điều đó với AIME, nơi mà câu trả lời chỉ đơn giản là một số nguyên từ 0 đến 999.
Mô hình này cũng suy nghĩ trong một *thời gian dài*. o1 suy nghĩ trong vài giây. Nghiên cứu sâu trong vài phút. Cái này suy nghĩ trong vài giờ. Quan trọng là, nó cũng hiệu quả hơn trong việc suy nghĩ. Và còn rất nhiều không gian để đẩy mạnh tính toán và hiệu quả trong thời gian kiểm tra.
Noam Brown
Noam Brown13 thg 9, 2024
@OpenAI @rao2z @OpenAI's o1 nghĩ trong vài giây, nhưng chúng tôi hướng tới các phiên bản tương lai có thể suy nghĩ trong vài giờ, vài ngày, thậm chí vài tuần. Chi phí suy diễn sẽ cao hơn, nhưng bạn sẽ trả giá bao nhiêu cho một loại thuốc mới chữa ung thư? Cho những viên pin đột phá? Cho một bằng chứng về Giả thuyết Riemann? AI có thể hơn cả chatbot.
Thật đáng để suy ngẫm về tốc độ tiến bộ của AI, đặc biệt là trong toán học. Vào năm 2024, các phòng thí nghiệm AI đã sử dụng toán học tiểu học (GSM8K) như một tiêu chí đánh giá trong các bản phát hành mô hình của họ. Kể từ đó, chúng ta đã bão hòa tiêu chuẩn MATH (trung học), sau đó là AIME, và giờ đây đã đạt được huy chương vàng IMO.
Điều này sẽ đi đến đâu? Mặc dù tiến bộ gần đây của AI rất nhanh chóng, tôi hoàn toàn mong đợi xu hướng này sẽ tiếp tục. Quan trọng là, tôi nghĩ rằng chúng ta đang gần đến lúc AI có thể đóng góp đáng kể vào việc khám phá khoa học. Có một sự khác biệt lớn giữa AI chỉ thấp hơn hiệu suất của con người hàng đầu và AI chỉ cao hơn một chút.
Đây là một nỗ lực của một nhóm nhỏ do @alexwei_ dẫn dắt. Anh ấy đã biến một ý tưởng nghiên cứu mà ít người tin tưởng thành một kết quả mà còn ít người nghĩ là có thể đạt được. Điều này cũng sẽ không thể xảy ra nếu không có nhiều năm nghiên cứu + kỹ thuật từ nhiều người tại @OpenAI và cộng đồng AI rộng lớn hơn.
Khi bạn làm việc tại một phòng thí nghiệm tiên phong, bạn thường biết được khả năng tiên phong trước nhiều tháng so với những người khác. Nhưng kết quả này hoàn toàn mới, sử dụng các kỹ thuật vừa được phát triển gần đây. Nó đã gây bất ngờ ngay cả với nhiều nhà nghiên cứu tại OpenAI. Hôm nay, mọi người đều có cơ hội thấy được đâu là ranh giới.
998,21K