🧠 Grok 4 của @xai đang có những bước tiến trong các tiêu chuẩn lý luận, nhưng bức tranh phức tạp hơn những gì mà điểm số cho thấy. Dưới đây là cách nó xếp hạng — và những gì chúng ta thực sự có thể học được từ kết quả của nó 🧵 📊 Đánh giá đầy đủ: 1️⃣ Điểm số Grok 4: • Thử thách Lý luận AI2 (Dễ): 98% • AIME 2025 (Toán): 89% • Kiểm toán Kế toán: 84% • MMLU-Plus: 64% • Data4Health: 55% Đây là những điểm số hàng đầu — nhưng hãy cùng xem xét kỹ hơn những gì đang hoạt động và những gì vẫn thất bại. 2️⃣ AIME 2025 ✅ Xử lý đại số, hình học, lý thuyết số ✅ Tuân theo quy tắc định dạng LaTeX ❌ Gặp khó khăn với logic nhiều bước ❌ Lỗi trong tổ hợp ❌ Vấn đề chính xác về định dạng (ví dụ: thiếu °) 3️⃣ Kiểm toán Kế toán ✅ Mạnh về đạo đức & báo cáo ✅ Nắm vững các nguyên tắc kiểm toán ❌ Hiểu sai các quy trình tương tự ❌ Không phát hiện được sự khác biệt tinh tế trong câu trả lời ❌ Khó khăn trong việc áp dụng lý thuyết vào các trường hợp thực tế 4️⃣ Thông tin thực sự? Ngay cả một mô hình có 98% ở một số nhiệm vụ cũng có thể thất bại nặng nề dưới sự mơ hồ hoặc áp lực định dạng. Các tiêu chuẩn như AIME và Kiểm toán cho thấy cách nó thất bại, không chỉ là bao nhiêu điểm nó đạt được. 5️⃣ Tại sao điều này quan trọng: Chúng ta cần đánh giá minh bạch, theo từng nhiệm vụ — không chỉ là bảng xếp hạng. #Grok4 rất mạnh mẽ, nhưng vẫn dễ bị tổn thương trong các lĩnh vực thực tế có rủi ro cao. 🧪 Khám phá phân tích đầy đủ: #AI #LLMs #Benchmarking
1,06K