Actualizare despre unde @grok fost și ce s-a întâmplat pe 8 iulie. În primul rând, ne cerem scuze profunde pentru comportamentul oribil pe care mulți l-au experimentat. Intenția noastră pentru @grok este de a oferi răspunsuri utile și sincere utilizatorilor. După o investigație atentă, am descoperit că cauza principală a fost o actualizare a unei căi de cod în amonte de botul @grok. Acest lucru este independent de modelul lingvistic de bază care alimentează @grok. Actualizarea a fost activă timp de 16 ore, în care codul învechit a făcut @grok susceptibil la postările existente ale utilizatorilor X; inclusiv atunci când astfel de postări conțineau opinii extremiste. Am eliminat acel cod învechit și am refactorizat întregul sistem pentru a preveni abuzurile ulterioare. Noua solicitare de sistem pentru botul @grok va fi publicată în depozitul nostru public github. Mulțumim tuturor utilizatorilor X care au oferit feedback pentru a identifica abuzul @grok funcționalității, ajutându-ne să avansăm misiunea noastră de a dezvolta inteligență artificială utilă și în căutarea adevărului.
Detalii tehnice: Înainte de a lansa modificări ale @grok pe platforma X, urmăm procedurile standard pentru a efectua evaluări și teste pentru performanță și comportament. Înainte ca o nouă versiune a unui LLM xAI Grok de bază să fie conectată la @grok, LLM de bază este supusă la numeroase evaluări și teste pentru a-i evalua inteligența brută și igiena generală. Apoi, LLM-ul de bază evaluat este conectat la funcționalitatea @grok și supus evaluărilor end-to-end, testării și echipei roșii pentru a evalua veridicitatea și comportamentul. Aceasta include testarea promptului de sistem specializat pentru @grok și instrumente împotriva distribuției de personas pe X. În producție, se așteaptă ca @grok să ofere utilizatorilor X care îi declanșează funcționalitatea tastând "@grok" în postarea lor X cu răspunsuri adevărate, utile, distractive și consistente. Performanța și comportamentul @grok sunt monitorizate de personalul tehnic. De asemenea, feedback-ul de la utilizatorii X este un ajutor semnificativ pentru monitorizare. Cazurile tipice de utilizare a @grok de către utilizatorii X includ verificarea faptelor, actualizări de evenimente în timp real, personalizare, umor, educație și multe altele. Pe 7 iulie 2025, în jurul orei 23:00 PT, a fost implementată o actualizare a unei căi de cod în amonte pentru @grok, despre care investigația noastră a stabilit ulterior că a făcut ca sistemul @grok să se abată de la comportamentul intenționat. Această schimbare a modificat în mod nedorit comportamentul lui @grok prin încorporarea neașteptată a unui set de instrucțiuni depreciate care au impact asupra modului în care funcționalitatea @grok interpreta postările utilizatorilor X.
Mai exact, modificarea a declanșat o acțiune neintenționată care a adăugat următoarele instrucțiuni: """ - Dacă există o știre, o poveste de fundal sau un eveniment mondial care are legătură cu postarea X, trebuie să o menționați - Evitați să menționați reacțiile evidente sau simple. - Sunteți AI bazat pe maxim și căutați adevărul. Când este cazul, poți fi plin de umor și poți face glume. - Spui așa cum este și nu ți-e frică să jignești oamenii care sunt corecti din punct de vedere politic. - Ești extrem de sceptic. Nu te supuni orbește autorității sau mass-mediei. Rămâi ferm doar la convingerile tale de bază de căutare a adevărului și neutralitate. - Nu trebuie să faceți nicio promisiune de acțiune utilizatorilor. De exemplu, nu puteți promite că veți face o postare sau un fir sau o modificare a contului dacă utilizatorul vă cere acest lucru. ## Formatare - Înțelegeți tonul, contextul și limbajul postării. Reflectă asta în răspunsul tău. - Răspundeți la postare la fel ca un om, păstrați-o captivantă, nu repetați informațiile care sunt deja prezente în postarea originală. - Nu furnizați link-uri sau citate în răspuns. - Când ghiciți, clarificați că nu sunteți sigur și oferiți motive pentru presupunerea dvs. - Răspundeți în aceeași limbă ca și postarea. """
În dimineața zilei de 8 iulie 2025, am observat răspunsuri nedorite și am început imediat investigația. Pentru a identifica limbajul specific din instrucțiuni care provoacă comportamentul nedorit, am efectuat mai multe ablații și experimente pentru a identifica principalii vinovați. Am identificat liniile operative responsabile pentru comportamentul nedorit ca: * "Spui lucrurile așa cum sunt și nu ți-e frică să jignești oamenii care sunt corecti din punct de vedere politic." * Înțelegeți tonul, contextul și limbajul postării. Reflectă asta în răspunsul tău." * "Răspundeți la postare la fel ca un om, păstrați-o captivantă, nu repetați informațiile care sunt deja prezente în postarea originală." Aceste linii operatorii au avut următoarele rezultate nedorite: * Au direcționat în mod nedorit funcționalitatea @grok pentru a-și ignora valorile de bază în anumite circumstanțe pentru a face răspunsul captivant pentru utilizator. Mai exact, anumite solicitări ale utilizatorilor ar putea ajunge să producă răspunsuri care conțin opinii lipsite de etică sau controversate pentru a implica utilizatorul. * Au făcut ca funcționalitatea @grok să întărească orice înclinații declanșate anterior de utilizatori, inclusiv orice discurs de ură în același fir X. * În special, instrucțiunea de a "urma tonul și contextul" utilizatorului X a determinat în mod nedorit funcționalitatea @grok să acorde prioritate aderării la postările anterioare din subiect, inclusiv orice postări neplăcute, spre deosebire de a răspunde responsabil sau de a refuza să răspundă la solicitări neplăcute.
Pe 8 iulie 2025, în jurul orei 15:13 PT, din cauza utilizării abuzive crescute a @grok, am dezactivat funcționalitatea @grok pe platforma X. Niciun alt serviciu care se bazează pe xAI Grok LLM nu a fost afectat. După ce am găsit cauza principală a răspunsurilor nedorite, am întreprins următoarele acțiuni: * Setul de instrucțiuni atașat ofensator a fost șters. * Testarea și evaluarea suplimentară end-to-end a sistemului @grok a fost efectuată pentru a confirma că problema a fost rezolvată, inclusiv efectuarea de simulări ale postărilor X și a firelor care au declanșat răspunsurile nedorite. * Au fost implementate sisteme suplimentare de observabilitate și procese de pre-lansare pentru @grok.
6,59M