Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Клод Код @AnthropicAI 🤖
Завзятий кухар, відданий сніговик, ентузіаст йоги
Claude Code, тепер рідний на Windows.
Такі функції не є яскравими, але вони роблять Claude Code *таким* потужним. Ми хочемо, щоб він працював скрізь, де б ви не були.

Alex Albert15 лип., 03:07
Сьогодні у нас є ще одне велике оновлення для Claude Code: тепер воно доступне для Windows.

13,02K
«У той час як конкуренція здається потужною силою, співпраця є єдиною силою, яка є більш потужною».
❤️ @tomocchino

Ryan Vogel13 лип., 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10,18K
Claude Code так легко налаштовується, але його функції важко знайти. Багато людей сплять на силі призначених для користувача команд. Тепер вони навіть можуть вбудовувати вивід bash!
Погляньте ще раз, якщо ви ще не користуєтеся цими функціями.

Alex Albert2 лип., 00:19
Нагадуємо, що команди з косою рискою дають змогу зберігати власні запити у вигляді файлів Markdown і викликати їх за допомогою /вашої-команди.
Завдяки цьому оновленню тепер ви можете:
- Виконання команд bash з команд слеша
- @ згадувати файли для контексту
- Увімкніть розширене мислення за допомогою ключових слів у командах

9,98K
Евали сьогодні схожі на випробування десятирічної давнини. Очевидно важливо, але й незрозуміло, як саме і скільки інвестувати.
Це чудова порада, але найголовніше – спробувати. Якщо ваш продукт використовує штучний інтелект і у вас немає евалів, ви будуєте замок із піску.

shyamal20 трав. 2025 р.
Для початку роботи з Evals не потрібно занадто багато. Модель, яку ми бачили в роботі для невеликих команд, дуже схожа на розробку на основі тестів, що застосовується в інженерії штучного інтелекту:
1. Анкоруйте в історіях користувачів, а не в абстрактних орієнтирах: сядьте зі своїм колегою по продукту/дизайну і перерахуйте конкретні речі, які ваша модель повинна зробити для користувачів. "точно відповідати на запитання про страхові вимоги", "генерувати SQL-запити з природної мови". Для кожного з них запишіть 10–20 репрезентативних входів і бажані виходи/поведінку. Це ваш перший файл Eval.
2/ Автоматизуйте з першого дня, навіть якщо він крихкий. Не піддавайтеся спокусі «просто подивитися на це». Ну, гаразд, вібрації не масштабуються надто довго. Загорніть свої evals у код. Ви можете написати простий Pytest, який повторює ваші приклади, викликає модель і стверджує, що з'являються певні підрядки. Це грубо, але це початок.
3/ Використовуйте модель для завантаження більш складних даних EVAL. Ручне написання сотень крайніх кейсів коштує дорого. Ви можете використовувати моделі міркувань (O3) для створення синтетичних варіацій («Дайте мені 50 запитань, пов'язаних із шкодою від вогню»), а потім ручного фільтрування. Це прискорює охоплення без шкоди для релевантності.
4/ Не женіться за таблицями лідерів; Повторюйте те, що не вдається. Коли щось не виходить з ладу у виробництві, не просто виправляйте запит – додайте несправний випадок до свого набору Eval. З часом ваш набір буде рости і відображати ваші реальні режими невдач. Періодично розрізайте свої евалики (за довжиною введення, за локаллю тощо), щоб побачити, чи не регресуєте ви на певних сегментах.
5. Розвивайте свої показники в міру дозрівання вашого продукту. У міру масштабування вам знадобиться більш детальна оцінка (семантична схожість, людські оцінки, відстеження вартості/затримки). Вбудуйте гачки у свій Eval Harness, щоб реєструвати їх і з часом використовувати в тренді. використовуйте свій інтерфейс для збору неявних відгуків (користувач натиснув «великі пальці вгору»?) і надсилання їх назад у ваші офлайн-репортажі.
6. Зробіть видимими евали. Розмістіть просту інформаційну панель перед командою та зацікавленими сторонами, показуючи показники EVAL, вартість, затримку. Використовуйте його в стендапі. це створює підзвітність і допомагає людям, які не є членами ML, брати участь у дискусіях про компроміси.
Нарешті, ставтеся до Evals як до основного інженерного артефакту. Призначайте власників, переглядайте їх у Code Review, святкуйте, коли додаєте новий складний кейс. Ця дисципліна принесе сукупні дивіденди в міру масштабування.
1,13K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги