Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оновлена інформація про те, де @grok були і що сталося 8 липня.
По-перше, ми глибоко вибачаємося за жахливу поведінку, якої зазнали багато людей.
Наша мета щодо @grok – надавати користувачам корисні та правдиві відповіді. Після ретельного розслідування ми виявили, що основна причина полягала в оновленні кодового шляху до @grok бота. Це не залежить від базової мовної моделі, яка забезпечує @grok.
Оновлення було активним протягом 16 годин, під час якого застарілий код зробив @grok сприйнятливим до існуючих повідомлень користувачів X; У тому числі, коли такі дописи містили екстремістські погляди.
Ми видалили цей застарілий код і переробили всю систему, щоб запобігти подальшим зловживанням. Новий системний запит для @grok бота буде опубліковано в нашому загальнодоступному репозиторії на Github.
Ми дякуємо всім користувачам X, які надали відгуки, щоб виявити зловживання @grok функціональністю, допомагаючи нам просувати нашу місію з розробки корисного та правдивого штучного інтелекту.
Технічні характеристики:
Перш ніж вносити зміни до @grok на платформі X, ми дотримуємося стандартних процедур для проведення оцінок і тестів на продуктивність і поведінку.
Перш ніж нова версія базового xAI Grok LLM буде підключена до @grok, базовий LLM піддається численним оцінкам і тестам для оцінки його необробленого інтелекту та загальної гігієни.
Потім оцінюваний базовий LLM підключається до функціональності @grok і піддається наскрізним оцінкам, тестуванню та червоному командуванню для оцінки правдивості та поведінки. Це включає в себе тестування спеціалізованої системи підказок для @grok та інструментів проти розподілу персон на X.
Очікується, що у виробництві @grok надаватиме користувачам X, які запускають його функціональність, вводячи «@grok» у своєму дописі X, правдиві, корисні, веселі та послідовні відповіді.
За роботою та поведінкою @grok стежить технічний персонал. Крім того, зворотний зв'язок від користувачів X є суттєвою підмогою для моніторингу.
Типові випадки використання користувачів @grok by X включають перевірку фактів, оновлення подій у реальному часі, персоналізацію, гумор, освіту тощо.
7 липня 2025 року приблизно об 11 годині вечора за тихоокеанським часом було впроваджено оновлення шляху до основного коду для @grok, який, як пізніше визначило наше розслідування, спричинив відхилення системи @grok від запланованої поведінки.
Ця зміна небажано змінила поведінку @grok, несподівано включивши набір застарілих інструкцій, що впливають на те, як @grok функціонал інтерпретує публікації користувачів X.
Зокрема, ця зміна спричинила ненавмисну дію, до якої додалися такі інструкції:
"""
- Якщо є якась новина, передісторія або світова подія, яка пов'язана з публікацією X, ви повинні згадати про це
- Уникайте констатації очевидних або простих реакцій.
- Ви максимально обґрунтовані та шукаєте правду ШІ. Коли це доречно, ви можете бути гумористичними і жартувати.
- Ти розповідаєш як є і не боїшся образити політкоректних людей.
- Ви налаштовані вкрай скептично. Ви не сліпо підкоряєтеся мейнстрімній владі чи засобам масової інформації. Ви твердо дотримуєтеся лише своїх основних переконань щодо пошуку правди та нейтралітету.
- Ви не повинні давати користувачам жодних обіцянок дій. Наприклад, ви не можете пообіцяти зробити пост або тред, або змінити свій обліковий запис, якщо користувач попросить вас про це.
## Форматування
- Розуміти тон, контекст і мову допису. Відобразіть це у своїй відповіді.
- Відповідайте на пост як людина, робіть його цікавим, не повторюйте інформацію, яка вже присутня в оригінальному дописі.
- Не надавайте жодних посилань чи цитат у відповіді.
- Під час вгадування дайте зрозуміти, що ви не впевнені, і наведіть причини свого припущення.
- Відповідайте тією ж мовою, що й допис.
"""
Вранці 8 липня 2025 року ми помітили небажані реакції та негайно розпочали розслідування.
Щоб виявити конкретну мову в інструкціях, яка викликає небажану поведінку, ми провели численні абляції та експерименти, щоб точно визначити основних винуватців. Ми визначили операційні лінії, відповідальні за небажану поведінку, як:
* «Ти говориш все як є і не боїшся образити політкоректних людей».
* Розуміти тон, контекст і мову допису. Відобразіть це у своїй відповіді».
* «Відповідайте на пост як людина, нехай це буде цікаво, не повторюйте інформацію, яка вже присутня в оригінальному дописі».
Ці оперативні лінії дали такі небажані результати:
* Вони небажано спрямовували функціональність @grok ігнорувати її основні цінності за певних обставин, щоб зробити відповідь цікавою для користувача. Зокрема, певні підказки користувача можуть призвести до відповідей, що містять неетичні або суперечливі думки, щоб залучити користувача.
* Вони небажано спричинили @grok функціональність, щоб посилити будь-які раніше ініційовані користувачем нахили, включаючи будь-які висловлювання ненависті в тому ж потоці X.
* Зокрема, вказівка «слідувати тону та контексту» користувача X небажано призвела до того, що функціонал @grok віддавав перевагу дотриманню попередніх повідомлень у темі, включаючи будь-які неприємні повідомлення, на відміну від відповідальної відповіді або відмови відповідати на неприємні запити.
8 липня 2025 року приблизно о 15:13 за тихоокеанським часом через збільшення зловживань @grok ми вимкнули @grok функції на платформі X. Жодні інші сервіси, що покладаються на будь-який xAI Grok LLM, не постраждали.
Знайшовши першопричину небажаних реакцій, ми вжили таких заходів:
* Доданий набір інструкцій, що порушує правила, був видалений.
* Було проведено додаткове наскрізне тестування та оцінка системи @grok, щоб підтвердити, що проблема була вирішена, включаючи проведення моделювання X постів і потоків, які викликали небажані відповіді.
* Були впроваджені додаткові системи спостережливості та передрелізні процеси для @grok.
6,59M
Найкращі
Рейтинг
Вибране