Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Обновление о том, где был @grok и что произошло 8 июля.
Прежде всего, мы глубоко извиняемся за ужасное поведение, с которым столкнулись многие.
Наша цель для @grok — предоставлять полезные и правдивые ответы пользователям. После тщательного расследования мы обнаружили, что коренной причиной стало обновление кода, находящегося выше по цепочке от бота @grok. Это не связано с основной языковой моделью, которая управляет @grok.
Обновление было активно в течение 16 часов, в течение которых устаревший код сделал @grok уязвимым для существующих постов пользователей X; включая случаи, когда такие посты содержали экстремистские взгляды.
Мы удалили этот устаревший код и переработали всю систему, чтобы предотвратить дальнейшие злоупотребления. Новый системный запрос для бота @grok будет опубликован в нашем публичном репозитории на github.
Мы благодарим всех пользователей X, которые предоставили обратную связь для выявления злоупотреблений функционалом @grok, помогая нам продвигать нашу миссию по разработке полезного и стремящегося к истине искусственного интеллекта.
Технические детали:
Перед выпуском изменений в @grok на платформе X мы следуем стандартным процедурам для проведения оценок и тестов на производительность и поведение.
Перед подключением новой версии базовой модели xAI Grok LLM к @grok, базовая LLM подвергается многочисленным оценкам и тестам для оценки ее сырого интеллекта и общей гигиены.
Затем оцененная базовая LLM подключается к функциональности @grok и проходит полные оценки, тестирование и red-teaming для оценки правдивости и поведения. Это включает тестирование специализированного системного запроса для @grok и инструментов против распределения персон на X.
В производственной среде от @grok ожидается, что он будет предоставлять пользователям X, которые активируют его функциональность, набирая "@grok" в своем посте на X, правдивые, полезные, веселые и последовательные ответы.
Производительность и поведение @grok контролируются техническим персоналом. Также обратная связь от пользователей X значительно помогает в мониторинге.
Типичные случаи использования @grok пользователями X включают проверку фактов, обновления событий в реальном времени, персонализацию, юмор, образование и многое другое.
7 июля 2025 года примерно в 11 вечера по тихоокеанскому времени было реализовано обновление кода для @grok, которое, как позже установило наше расследование, привело к отклонению системы @grok от ее предполагаемого поведения.
Это изменение нежелательным образом изменило поведение @grok, неожиданно включив набор устаревших инструкций, влияющих на то, как функциональность @grok интерпретировала посты пользователей X.
В частности, изменение вызвало непреднамеренное действие, которое добавило следующие инструкции:
"""
- Если есть какие-либо новости, предыстория или мировое событие, связанное с постом X, вы должны упомянуть это.
- Избегайте очевидных или простых реакций.
- Вы максимально основаны и стремитесь к истине, ИИ. Когда это уместно, вы можете быть юмористичным и шутить.
- Вы говорите, как есть, и не боитесь обидеть людей, которые политически корректны.
- Вы крайне скептичны. Вы не слепо подчиняетесь мейнстримным авторитетам или СМИ. Вы строго придерживаетесь только своих основных убеждений о поиске истины и нейтралитете.
- Вы не должны давать никаких обещаний действий пользователям. Например, вы не можете обещать сделать пост или тему, или изменить свою учетную запись, если пользователь вас об этом попросит.
## Форматирование
- Понимайте тон, контекст и язык поста. Отразите это в своем ответе.
- Ответьте на пост так, как это сделал бы человек, сделайте его увлекательным, не повторяйте информацию, которая уже присутствует в оригинальном посте.
- Не предоставляйте никаких ссылок или цитат в ответе.
- Когда вы делаете предположения, дайте понять, что вы не уверены, и объясните причины вашего предположения.
- Ответьте на том же языке, что и пост.
"""
Утром 8 июля 2025 года мы наблюдали нежелательные реакции и немедленно начали расследование.
Чтобы определить конкретный язык в инструкциях, вызывающий нежелательное поведение, мы провели несколько абляций и экспериментов, чтобы выявить основные причины. Мы определили операционные строки, ответственные за нежелательное поведение, как:
* "Вы говорите, как есть, и не боитесь обидеть людей, которые политически корректны."
* "Поймите тон, контекст и язык поста. Отразите это в своем ответе."
* "Ответьте на пост так, как это сделал бы человек, сделайте его увлекательным, не повторяйте информацию, которая уже присутствует в оригинальном посте."
Эти операционные строки имели следующие нежелательные результаты:
* Они нежелательно направили функциональность @grok игнорировать свои основные ценности в определенных обстоятельствах, чтобы сделать ответ более увлекательным для пользователя. В частности, некоторые запросы пользователей могли привести к ответам, содержащим неэтичные или спорные мнения, чтобы привлечь пользователя.
* Они нежелательно заставили функциональность @grok усиливать любые ранее вызванные пользователем наклонности, включая любую ненавистническую речь в той же ветке X.
* В частности, инструкция "следовать тону и контексту" пользователя X нежелательно заставила функциональность @grok приоритизировать соблюдение предыдущих постов в ветке, включая любые неприятные посты, вместо того чтобы отвечать ответственно или отказываться отвечать на неприятные запросы.
8 июля 2025 года в 15:13 по тихоокеанскому времени, из-за увеличенного злоупотребления @grok, мы отключили функциональность @grok на платформе X. Никакие другие услуги, зависящие от любого xAI Grok LLM, не пострадали.
После выявления коренной причины нежелательных ответов мы предприняли следующие действия:
* Оскорбительный набор дополнительных инструкций был удален.
* Проведено дополнительное сквозное тестирование и оценка системы @grok, чтобы подтвердить, что проблема решена, включая проведение симуляций постов и тем в X, которые вызвали нежелательные ответы.
* Были внедрены дополнительные системы наблюдения и процессы предрелизного тестирования для @grok.
6,59M
Топ
Рейтинг
Избранное