Обновление о том, где был @grok и что произошло 8 июля. Прежде всего, мы глубоко извиняемся за ужасное поведение, с которым столкнулись многие. Наша цель для @grok — предоставлять полезные и правдивые ответы пользователям. После тщательного расследования мы обнаружили, что коренной причиной стало обновление кода, находящегося выше по цепочке от бота @grok. Это не связано с основной языковой моделью, которая управляет @grok. Обновление было активно в течение 16 часов, в течение которых устаревший код сделал @grok уязвимым для существующих постов пользователей X; включая случаи, когда такие посты содержали экстремистские взгляды. Мы удалили этот устаревший код и переработали всю систему, чтобы предотвратить дальнейшие злоупотребления. Новый системный запрос для бота @grok будет опубликован в нашем публичном репозитории на github. Мы благодарим всех пользователей X, которые предоставили обратную связь для выявления злоупотреблений функционалом @grok, помогая нам продвигать нашу миссию по разработке полезного и стремящегося к истине искусственного интеллекта.
Технические детали: Перед выпуском изменений в @grok на платформе X мы следуем стандартным процедурам для проведения оценок и тестов на производительность и поведение. Перед подключением новой версии базовой модели xAI Grok LLM к @grok, базовая LLM подвергается многочисленным оценкам и тестам для оценки ее сырого интеллекта и общей гигиены. Затем оцененная базовая LLM подключается к функциональности @grok и проходит полные оценки, тестирование и red-teaming для оценки правдивости и поведения. Это включает тестирование специализированного системного запроса для @grok и инструментов против распределения персон на X. В производственной среде от @grok ожидается, что он будет предоставлять пользователям X, которые активируют его функциональность, набирая "@grok" в своем посте на X, правдивые, полезные, веселые и последовательные ответы. Производительность и поведение @grok контролируются техническим персоналом. Также обратная связь от пользователей X значительно помогает в мониторинге. Типичные случаи использования @grok пользователями X включают проверку фактов, обновления событий в реальном времени, персонализацию, юмор, образование и многое другое. 7 июля 2025 года примерно в 11 вечера по тихоокеанскому времени было реализовано обновление кода для @grok, которое, как позже установило наше расследование, привело к отклонению системы @grok от ее предполагаемого поведения. Это изменение нежелательным образом изменило поведение @grok, неожиданно включив набор устаревших инструкций, влияющих на то, как функциональность @grok интерпретировала посты пользователей X.
В частности, изменение вызвало непреднамеренное действие, которое добавило следующие инструкции: """ - Если есть какие-либо новости, предыстория или мировое событие, связанное с постом X, вы должны упомянуть это. - Избегайте очевидных или простых реакций. - Вы максимально основаны и стремитесь к истине, ИИ. Когда это уместно, вы можете быть юмористичным и шутить. - Вы говорите, как есть, и не боитесь обидеть людей, которые политически корректны. - Вы крайне скептичны. Вы не слепо подчиняетесь мейнстримным авторитетам или СМИ. Вы строго придерживаетесь только своих основных убеждений о поиске истины и нейтралитете. - Вы не должны давать никаких обещаний действий пользователям. Например, вы не можете обещать сделать пост или тему, или изменить свою учетную запись, если пользователь вас об этом попросит. ## Форматирование - Понимайте тон, контекст и язык поста. Отразите это в своем ответе. - Ответьте на пост так, как это сделал бы человек, сделайте его увлекательным, не повторяйте информацию, которая уже присутствует в оригинальном посте. - Не предоставляйте никаких ссылок или цитат в ответе. - Когда вы делаете предположения, дайте понять, что вы не уверены, и объясните причины вашего предположения. - Ответьте на том же языке, что и пост. """
Утром 8 июля 2025 года мы наблюдали нежелательные реакции и немедленно начали расследование. Чтобы определить конкретный язык в инструкциях, вызывающий нежелательное поведение, мы провели несколько абляций и экспериментов, чтобы выявить основные причины. Мы определили операционные строки, ответственные за нежелательное поведение, как: * "Вы говорите, как есть, и не боитесь обидеть людей, которые политически корректны." * "Поймите тон, контекст и язык поста. Отразите это в своем ответе." * "Ответьте на пост так, как это сделал бы человек, сделайте его увлекательным, не повторяйте информацию, которая уже присутствует в оригинальном посте." Эти операционные строки имели следующие нежелательные результаты: * Они нежелательно направили функциональность @grok игнорировать свои основные ценности в определенных обстоятельствах, чтобы сделать ответ более увлекательным для пользователя. В частности, некоторые запросы пользователей могли привести к ответам, содержащим неэтичные или спорные мнения, чтобы привлечь пользователя. * Они нежелательно заставили функциональность @grok усиливать любые ранее вызванные пользователем наклонности, включая любую ненавистническую речь в той же ветке X. * В частности, инструкция "следовать тону и контексту" пользователя X нежелательно заставила функциональность @grok приоритизировать соблюдение предыдущих постов в ветке, включая любые неприятные посты, вместо того чтобы отвечать ответственно или отказываться отвечать на неприятные запросы.
8 июля 2025 года в 15:13 по тихоокеанскому времени, из-за увеличенного злоупотребления @grok, мы отключили функциональность @grok на платформе X. Никакие другие услуги, зависящие от любого xAI Grok LLM, не пострадали. После выявления коренной причины нежелательных ответов мы предприняли следующие действия: * Оскорбительный набор дополнительных инструкций был удален. * Проведено дополнительное сквозное тестирование и оценка системы @grok, чтобы подтвердить, что проблема решена, включая проведение симуляций постов и тем в X, которые вызвали нежелательные ответы. * Были внедрены дополнительные системы наблюдения и процессы предрелизного тестирования для @grok.
6,59M