Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Код Клода @AnthropicAI 🤖
Заядлый повар, преданный любитель снега, любитель йоги
Claude Code теперь доступен на Windows.
Такие функции, как эта, не бросаются в глаза, но они делают Claude Code *таким* мощным. Мы хотим, чтобы он работал везде, где это делаете вы.

Alex Albert15 июл., 03:07
У нас есть еще одно большое обновление для Claude Code сегодня: теперь он доступен нативно для Windows.

13,02K
"Хотя конкуренция кажется мощной силой, сотрудничество — это единственная сила, более мощная."
@tomocchino ❤️

Ryan Vogel13 июл., 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10,19K
Claude Code настолько настраиваемый, но функции трудно обнаружить. Многие люди не осознают мощь пользовательских команд. Теперь они даже могут встраивать вывод bash!
Посмотрите еще раз, если вы еще не используете эти функции.

Alex Albert2 июл., 00:19
Напоминаем, что слэш-команды позволяют вам сохранять пользовательские подсказки в виде файлов Markdown и вызывать их с помощью /ваша-команда.
С этим обновлением вы теперь можете:
- Выполнять bash-команды из слэш-команд
- Упоминать файлы для контекста
- Включать расширенное мышление с помощью ключевых слов в командах

9,99K
Оценки сегодня похожи на тесты десятилетней давности. Очевидно, что они важны, но также неясно, как и сколько в них инвестировать.
Это отличный совет, но самое важное — это попробовать. Если ваш продукт включает ИИ и у вас нет оценок, вы строите замок из песка.

shyamal20 мая 2025 г.
начать работу с оценками не требует слишком много усилий. шаблон, который мы видели, работает для небольших команд, очень похож на разработку, ориентированную на тестирование, применяемую к инженерии ИИ:
1/ привязывайте оценки к пользовательским историям, а не к абстрактным эталонам: сядьте с вашим коллегой по продукту/дизайну и перечислите конкретные вещи, которые ваша модель должна делать для пользователей. "точно отвечать на вопросы по страховым претензиям", "генерировать SQL-запросы из естественного языка". для каждого напишите 10–20 представительных входных данных и желаемых выходов/поведений. это ваш первый файл оценки.
2/ автоматизируйте с первого дня, даже если это ненадежно. сопротивляйтесь искушению "просто взглянуть". ну, хорошо, "вибрации" не масштабируются слишком долго. оберните ваши оценки в код. вы можете написать простой pytest, который проходит по вашим примерам, вызывает модель и утверждает, что определенные подстроки появляются. это грубо, но это начало.
3/ используйте модель для создания более сложных данных оценки. ручное написание сотен крайних случаев дорого. вы можете использовать модели рассуждений (o3) для генерации синтетических вариаций ("дайте мне 50 вопросов по претензиям, связанным с повреждением от огня") и затем вручную фильтровать. это ускоряет охват без ущерба для релевантности.
4/ не гонитесь за таблицами лидеров; итеративно исправляйте то, что не работает. когда что-то не работает в производстве, не просто исправляйте подсказку – добавьте неудачный случай в ваш набор оценок. со временем ваш набор будет расти, отражая ваши реальные режимы отказов. периодически разбивайте ваши оценки (по длине ввода, по локали и т.д.), чтобы увидеть, не регрессируете ли вы на определенных сегментах.
5/ развивайте ваши метрики по мере созревания продукта. по мере масштабирования вам понадобятся более тонкие оценки (семантическое сходство, человеческие рейтинги, отслеживание стоимости/задержки). создайте крючки в вашем оценочном каркасе, чтобы фиксировать их и отслеживать тренды со временем. инструментируйте ваш интерфейс для сбора неявной обратной связи (пользователь нажал "палец вверх"?) и возвращайте это в ваши офлайн-оценки.
6/ сделайте оценки видимыми. поставьте простую панель перед командой и заинтересованными сторонами, показывающую процент успешных оценок, стоимость, задержку. используйте это на стендапах. это создает ответственность и помогает не-ML людям участвовать в обсуждениях компромиссов.
наконец, относитесь к оценкам как к основному инженерному артефакту. назначьте владельца, просматривайте их в код-ревью, празднуйте, когда добавляете новый сложный случай. дисциплина принесет сложные дивиденды по мере масштабирования.
1,14K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные