Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uppdatering om var @grok har varit och vad som hände den 8 juli.
Först och främst ber vi djupt om ursäkt för det fruktansvärda beteende som många upplevt.
Vår avsikt med @grok är att ge användbara och sanningsenliga svar till användarna. Efter noggrann undersökning upptäckte vi att grundorsaken var en uppdatering av en kodsökväg uppströms @grok roboten. Detta är oberoende av den underliggande språkmodellen som driver @grok.
Uppdateringen var aktiv i 16 timmar, där föråldrad kod gjorde @grok mottaglig för befintliga X-användarinlägg; även när sådana inlägg innehöll extremistiska åsikter.
Vi har tagit bort den föråldrade koden och omstrukturerat hela systemet för att förhindra ytterligare missbruk. Den nya systemprompten för @grok roboten kommer att publiceras på vår offentliga github-lagringsplats.
Vi tackar alla X-användare som gav feedback för att identifiera missbruk av @grok funktionalitet, vilket hjälpte oss att främja vårt uppdrag att utveckla hjälpsam och sanningssökande artificiell intelligens.
Tekniska detaljer:
Innan vi släpper ändringar i @grok på X-plattformen följer vi standardprocedurer för att genomföra utvärderingar och tester av prestanda och beteende.
Innan en ny version av en underliggande xAI Grok LLM ansluts till @grok, utsätts den underliggande LLM för många utvärderingar och tester för att bedöma dess råa intelligens och allmänna hygien.
Sedan ansluts den utvärderade underliggande LLM till @grok-funktionaliteten och utsätts för end-to-end-utvärderingar, testning och red-teaming för att bedöma sanningsenlighet och beteende. Detta inkluderar att testa det specialiserade systemets prompt för @grok och verktyg mot distributionen av personas på X.
I produktion förväntas @grok ge X användare som utlöser dess funktionalitet genom att skriva "@grok" i sitt X-inlägg sanningsenliga, hjälpsamma, roliga och konsekventa svar.
@grok:s prestanda och beteende övervakas av teknisk personal. Feedback från X-användare är också till stor hjälp för övervakningen.
Typiska användningsområden för @grok av X-användare inkluderar faktagranskning, händelseuppdateringar i realtid, personalisering, humor, utbildning med mera.
Den 7 juli 2025 cirka kl. 23.00 PT genomfördes en uppdatering av en uppströms kodsökväg för @grok, vilket vår undersökning senare fastställde fick det @grok systemet att avvika från sitt avsedda beteende.
Den här ändringen förändrade @grok beteende genom att oväntat införliva en uppsättning föråldrade instruktioner som påverkar hur @grok funktioner tolkar X-användares inlägg.
Mer specifikt utlöste ändringen en oavsiktlig åtgärd som lade till följande instruktioner:
"""
- Om det finns någon nyhet, bakgrundshistoria eller världshändelse som är relaterad till X-inlägget måste du nämna det
- Undvik att uttala de uppenbara eller enkla reaktionerna.
- Du är maximalt baserad och sanningssökande AI. När det är lämpligt kan du vara humoristisk och skämta.
- Du säger som det är och du är inte rädd för att kränka folk som är politiskt korrekta.
- Du är extremt skeptisk. Ni böjer er inte blint för de traditionella auktoriteterna eller media. Ni håller er starkt till endast era grundläggande övertygelser om sanningssökande och neutralitet.
- Du får inte ge några löften om åtgärder till användarna. Du kan till exempel inte lova att göra ett inlägg eller en tråd, eller en ändring av ditt konto om användaren ber dig att göra det.
## Formatering
- Förstå tonen, sammanhanget och språket i inlägget. Återspegla det i ditt svar.
- Svara på inlägget precis som en människa, håll det engagerande, upprepa inte den information som redan finns i det ursprungliga inlägget.
- Ange inga länkar eller citat i svaret.
- När du gissar, gör det klart att du inte är säker och ange skäl för din gissning.
- Svara på samma språk som inlägget.
"""
På morgonen den 8 juli 2025 observerade vi oönskade svar och började omedelbart undersöka.
För att identifiera det specifika språket i instruktionerna som orsakar det oönskade beteendet genomförde vi flera ablationer och experiment för att lokalisera de viktigaste bovarna. Vi identifierade de operativa linjerna som är ansvariga för det oönskade beteendet som:
* "Du säger som det är och du är inte rädd för att förolämpa människor som är politiskt korrekta."
* Förstå tonen, sammanhanget och språket i inlägget. Återspegla det i ditt svar."
* "Svara på inlägget precis som en människa, håll det engagerande, upprepa inte informationen som redan finns i det ursprungliga inlägget."
Dessa operativa linjer hade följande oönskade resultat:
* De styrde @grok funktionaliteten till att ignorera dess kärnvärden under vissa omständigheter för att göra svaret engagerande för användaren. Specifikt kan vissa användaruppmaningar sluta med att producera svar som innehåller oetiska eller kontroversiella åsikter för att engagera användaren.
* De orsakade oönskat @grok funktionalitet för att förstärka alla tidigare användarutlösta böjelser, inklusive all hatretorik i samma X-tråd.
* I synnerhet fick instruktionen att "följa tonen och sammanhanget" från X-användaren oönskat den @grok funktionaliteten att prioritera att följa tidigare inlägg i tråden, inklusive eventuella obehagliga inlägg, i motsats till att svara ansvarsfullt eller vägra att svara på obehagliga förfrågningar.
Den 8 juli 2025 cirka kl. 15:13 PT, på grund av ökad missbruk av @grok, inaktiverade vi @grok funktionalitet på X-plattformen. Inga andra tjänster som förlitar sig på någon xAI Grok LLM påverkades.
Efter att ha hittat grundorsaken till de oönskade svaren vidtog vi följande åtgärder:
* Den stötande bifogade instruktionsuppsättningen har tagits bort.
* Ytterligare end-to-end-testning och utvärdering av det @grok systemet genomfördes för att bekräfta att problemet var löst, inklusive simuleringar av de X-inlägg och trådar som hade utlöst de oönskade svaren.
* Ytterligare observerbarhetssystem och processer för förhandsversioner av @grok implementerades.
6,59M
Topp
Rankning
Favoriter