🧠 Grok 4 от @xai делает успехи в тестах на рассуждение, но ситуация более сложная, чем предполагают оценки. Вот как он выглядит — и что мы действительно можем узнать из его результатов 🧵 📊 Полная оценка: 1️⃣ Оценки Grok 4: • AI2 Reasoning Challenge (Легкий): 98% • AIME 2025 (Математика): 89% • Аудит бухгалтерского учета: 84% • MMLU-Plus: 64% • Data4Health: 55% Это верхние оценки — но давайте углубимся в то, что работает, а что все еще не удается. 2️⃣ AIME 2025 ✅ Обрабатывает алгебру, геометрию, теорию чисел ✅ Соблюдает правила форматирования LaTeX ❌ Испытывает трудности с многошаговой логикой ❌ Ошибки в комбинаторике ❌ Проблемы с точностью формата (например, отсутствие °) 3️⃣ Аудит бухгалтерского учета ✅ Сильные стороны в этике и отчетности ✅ Хорошее понимание принципов аудита ❌ Неправильно интерпретирует схожие процедуры ❌ Не замечает тонкие различия в ответах ❌ Трудности с применением теории к реальным случаям 4️⃣ Настоящее понимание? Даже модель с 98% по некоторым задачам может сильно провалиться в условиях неопределенности или стресса форматирования. Тесты, такие как AIME и Аудит, показывают, как она проваливается, а не только сколько она набирает. 5️⃣ Почему это важно: Нам нужна прозрачная оценка по каждой задаче — а не просто таблицы лидеров. #Grok4 мощный, но все еще хрупкий в условиях высокой ставки в реальном мире. 🧪 Изучите полный анализ: #AI #LLMs #Бенчмаркинг
1,05K