причина, через яку LLM-аналіз (і регулювання, і PMing) є важким* полягає в тому, що відповідні РОЗМІРИ продовжують змінюватися з кожним поколінням моделі Frontier; Недостатньо просто помістити свою вісь X або Y в логарифмічну шкалу та відстежувати закони масштабування, вам потрібно фактично виконати роботу, щоб подумати про те, як моделі структурно відрізняються у 2025 році та 2024 році та 2023 році тощо Наприклад Всі зосереджені на Ело протягом 2 років, Ело потрапляє в гру і втрачає авторитет Всі орієнтувалися на ціну за токен протягом 3 років, моделі міркувань мають 10-40-кратну варіацію вихідних токенів на завдання, ціна за токен втрачає сенс Збирайте дані скільки завгодно, але якщо ви просто збираєте чисті часові ряди, ви можете втратити з поля зору загальну картину *(і чому твердження на кшталт «AI engineer — це не річ, тому що всі інженери-програмісти — AI engineers» — це можна і ніколи не буде правильним, хіба що в самому тривіальному сенсі)
Scott Huston
Scott Huston22 лип., 08:30
Чи існує загальнодоступна електронна таблиця всіх провідних моделей LLM від різних компаній, яка показує їхні ціни, контрольні бали, оцінки arena elo тощо?
9,73K