Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
начать работу с оценками не требует слишком много усилий. шаблон, который мы видели, работает для небольших команд, очень похож на разработку, ориентированную на тестирование, применяемую к инженерии ИИ:
1/ привязывайте оценки к пользовательским историям, а не к абстрактным эталонам: сядьте с вашим коллегой по продукту/дизайну и перечислите конкретные вещи, которые ваша модель должна делать для пользователей. "точно отвечать на вопросы по страховым претензиям", "генерировать SQL-запросы из естественного языка". для каждого напишите 10–20 представительных входных данных и желаемых выходов/поведений. это ваш первый файл оценки.
2/ автоматизируйте с первого дня, даже если это ненадежно. сопротивляйтесь искушению "просто взглянуть". ну, хорошо, "вибрации" не масштабируются слишком долго. оберните ваши оценки в код. вы можете написать простой pytest, который проходит по вашим примерам, вызывает модель и утверждает, что определенные подстроки появляются. это грубо, но это начало.
3/ используйте модель для создания более сложных данных оценки. ручное написание сотен крайних случаев дорого. вы можете использовать модели рассуждений (o3) для генерации синтетических вариаций ("дайте мне 50 вопросов по претензиям, связанным с повреждением от огня") и затем вручную фильтровать. это ускоряет охват без ущерба для релевантности.
4/ не гонитесь за таблицами лидеров; итеративно исправляйте то, что не работает. когда что-то не работает в производстве, не просто исправляйте подсказку – добавьте неудачный случай в ваш набор оценок. со временем ваш набор будет расти, отражая ваши реальные режимы отказов. периодически разбивайте ваши оценки (по длине ввода, по локали и т.д.), чтобы увидеть, не регрессируете ли вы на определенных сегментах.
5/ развивайте ваши метрики по мере созревания продукта. по мере масштабирования вам понадобятся более тонкие оценки (семантическое сходство, человеческие рейтинги, отслеживание стоимости/задержки). создайте крючки в вашем оценочном каркасе, чтобы фиксировать их и отслеживать тренды со временем. инструментируйте ваш интерфейс для сбора неявной обратной связи (пользователь нажал "палец вверх"?) и возвращайте это в ваши офлайн-оценки.
6/ сделайте оценки видимыми. поставьте простую панель перед командой и заинтересованными сторонами, показывающую процент успешных оценок, стоимость, задержку. используйте это на стендапах. это создает ответственность и помогает не-ML людям участвовать в обсуждениях компромиссов.
наконец, относитесь к оценкам как к основному инженерному артефакту. назначьте владельца, просматривайте их в код-ревью, празднуйте, когда добавляете новый сложный случай. дисциплина принесет сложные дивиденды по мере масштабирования.
24,36K
Топ
Рейтинг
Избранное