Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Евали сьогодні схожі на випробування десятирічної давнини. Очевидно важливо, але й незрозуміло, як саме і скільки інвестувати.
Це чудова порада, але найголовніше – спробувати. Якщо ваш продукт використовує штучний інтелект і у вас немає евалів, ви будуєте замок із піску.

20 трав. 2025 р.
Для початку роботи з Evals не потрібно занадто багато. Модель, яку ми бачили в роботі для невеликих команд, дуже схожа на розробку на основі тестів, що застосовується в інженерії штучного інтелекту:
1. Анкоруйте в історіях користувачів, а не в абстрактних орієнтирах: сядьте зі своїм колегою по продукту/дизайну і перерахуйте конкретні речі, які ваша модель повинна зробити для користувачів. "точно відповідати на запитання про страхові вимоги", "генерувати SQL-запити з природної мови". Для кожного з них запишіть 10–20 репрезентативних входів і бажані виходи/поведінку. Це ваш перший файл Eval.
2/ Автоматизуйте з першого дня, навіть якщо він крихкий. Не піддавайтеся спокусі «просто подивитися на це». Ну, гаразд, вібрації не масштабуються надто довго. Загорніть свої evals у код. Ви можете написати простий Pytest, який повторює ваші приклади, викликає модель і стверджує, що з'являються певні підрядки. Це грубо, але це початок.
3/ Використовуйте модель для завантаження більш складних даних EVAL. Ручне написання сотень крайніх кейсів коштує дорого. Ви можете використовувати моделі міркувань (O3) для створення синтетичних варіацій («Дайте мені 50 запитань, пов'язаних із шкодою від вогню»), а потім ручного фільтрування. Це прискорює охоплення без шкоди для релевантності.
4/ Не женіться за таблицями лідерів; Повторюйте те, що не вдається. Коли щось не виходить з ладу у виробництві, не просто виправляйте запит – додайте несправний випадок до свого набору Eval. З часом ваш набір буде рости і відображати ваші реальні режими невдач. Періодично розрізайте свої евалики (за довжиною введення, за локаллю тощо), щоб побачити, чи не регресуєте ви на певних сегментах.
5. Розвивайте свої показники в міру дозрівання вашого продукту. У міру масштабування вам знадобиться більш детальна оцінка (семантична схожість, людські оцінки, відстеження вартості/затримки). Вбудуйте гачки у свій Eval Harness, щоб реєструвати їх і з часом використовувати в тренді. використовуйте свій інтерфейс для збору неявних відгуків (користувач натиснув «великі пальці вгору»?) і надсилання їх назад у ваші офлайн-репортажі.
6. Зробіть видимими евали. Розмістіть просту інформаційну панель перед командою та зацікавленими сторонами, показуючи показники EVAL, вартість, затримку. Використовуйте його в стендапі. це створює підзвітність і допомагає людям, які не є членами ML, брати участь у дискусіях про компроміси.
Нарешті, ставтеся до Evals як до основного інженерного артефакту. Призначайте власників, переглядайте їх у Code Review, святкуйте, коли додаєте новий складний кейс. Ця дисципліна принесе сукупні дивіденди в міру масштабування.
1,11K
Найкращі
Рейтинг
Вибране