🧠 Grok 4 by @xai は推論ベンチマークで進歩を遂げていますが、スコアが示すよりも状況は微妙です。 ここでは、その積み重ね方と、その結果🧵から実際に何を学ぶことができるかを説明します 📊 フル評価: 1️⃣ Grok 4スコア: •AI2推論チャレンジ(簡単):98% • AIME 2025 (数学): 89% • 会計監査:84% • MMLU-Plus:64% • Data4Health:55% これらはトップラインのスコアですが、何がうまくいっていて、何がまだ失敗しているのかにズームインしてみましょう。 2️(2025年エイミー) ✅ 代数、幾何学、数論を扱います ✅ LaTeXのフォーマットルールに準拠 ❌ マルチステップロジックに苦労している ❌ 組み合わせ論の誤り ❌ フォーマットの精度の問題(例:°の欠落) 3️(3)会計監査 ✅ 倫理と報告に強い ✅ 監査原則の確実な理解 ❌ 同様の手順を誤って解釈する ❌ 微妙な答えの違いを見つけられない ❌ 理論を現実世界のケースに応用するのは難しい 4️⃣ 本当の洞察力とは? 一部のタスクで 98% のモデルであっても、あいまいさや書式設定のストレスの下では、大きな失敗をする可能性があります。 AIMEやAuditなどのベンチマークは、スコアだけでなく、どのように失敗するかを示しています。 5️⃣ なぜこれが重要なのか: リーダーボードだけでなく、タスクごとの透明性のある評価が必要です。 #Grok4 は強力ですが、リスクの高い現実世界のドメインではまだ脆弱です。 🧪 完全な内訳をご覧ください。 #AI #LLMs #Benchmarking
1.05K