Причина, по которой анализ LLM (и регулирование, и PMing) сложен* в том, что соответствующие ИЗМЕРЕНИЯ продолжают меняться с каждым поколением передовой модели; недостаточно просто установить ось x или y в логарифмическом масштабе и отслеживать законы масштабирования, нужно действительно поработать над тем, чтобы понять, как модели структурно отличаются в 2025 году по сравнению с 2024 и 2023 годами и так далее. Например, все сосредоточились на elo в течение 2 лет, elo начинает использоваться в играх и теряет свою надежность. все сосредоточились на цене за токены в течение 3 лет, модели рассуждений имеют 10-40-кратное изменение в выходных токенах на задачу, цена за токен теряет смысл. Собирайте данные сколько угодно, но если вы просто собираете чистые временные ряды, вы можете потерять из виду более широкую картину. *(и почему такие утверждения, как "инженер по ИИ не существует, потому что все инженеры-программисты являются инженерами по ИИ", являются самообманом и никогда не будут правы, кроме как в самом тривиальном смысле)
Scott Huston
Scott Huston22 июл., 08:30
Существует ли публичная таблица всех ведущих моделей LLM от разных компаний, показывающая их цены, оценки по бенчмаркам, рейтинги в арене и т.д.?
9,91K