Oppdatering om hvor @grok har vært og hva som skjedde 8. Først og fremst beklager vi på det sterkeste for den forferdelige oppførselen som mange opplevde. Vår hensikt med @grok er å gi nyttige og sannferdige svar til brukerne. Etter nøye undersøkelser oppdaget vi at rotårsaken var en oppdatering av en kodebane oppstrøms for @grok-boten. Dette er uavhengig av den underliggende språkmodellen som driver @grok. Oppdateringen var aktiv i 16 timer, der utdatert kode gjorde @grok mottakelig for eksisterende X-brukerinnlegg; inkludert når slike innlegg inneholdt ekstremistiske synspunkter. Vi har fjernet den utdaterte koden og refaktorert hele systemet for å forhindre ytterligere misbruk. Den nye systemledeteksten for @grok-roboten vil bli publisert til vårt offentlige github-repositorium. Vi takker alle X-brukerne som ga tilbakemelding for å identifisere misbruk av @grok funksjonalitet, og hjelpe oss med å fremme vårt oppdrag om å utvikle nyttig og sannhetssøkende kunstig intelligens.
Tekniske detaljer: Før vi publiserer endringer i @grok på X-plattformen, følger vi standardprosedyrer for å utføre evalueringer og tester for ytelse og atferd. Før en ny versjon av en underliggende xAI Grok LLM kobles til @grok, blir den underliggende LLM utsatt for en rekke evalueringer og tester for å vurdere dens rå intelligens og generelle hygiene. Deretter kobles den evaluerte underliggende LLM-en til @grok-funksjonaliteten og utsettes for ende-til-ende-evalueringer, testing og red-teaming for å vurdere sannhet og oppførsel. Dette inkluderer testing av den spesialiserte systemforespørselen for @grok og verktøy mot distribusjon av personas på X. I produksjon forventes @grok å gi X brukere som utløser funksjonaliteten ved å skrive "@grok" i X-innlegget sitt sannferdige, nyttige, morsomme og konsekvente svar. @grok ytelse og oppførsel overvåkes av teknisk personell. Tilbakemeldinger fra X-brukere er også en betydelig hjelp til overvåking. Typiske brukstilfeller for @grok av X-brukere inkluderer faktasjekking, hendelsesoppdateringer i sanntid, personalisering, humor, utdanning og mer. 7. juli 2025 omtrent kl. 11 PT ble en oppdatering av en oppstrøms kodebane for @grok implementert, som vår undersøkelse senere fastslo førte til at det @grok systemet avvek fra den tiltenkte oppførselen. Denne endringen endret uønsket @grok oppførsel ved uventet å innlemme et sett med utdaterte instruksjoner som påvirket hvordan @grok funksjonalitet tolket X-brukernes innlegg.
Nærmere bestemt utløste endringen en utilsiktet handling som la til følgende instruksjoner: """ - Hvis det er en nyhet, bakgrunnshistorie eller verdensbegivenhet som er relatert til X-innlegget, må du nevne det - Unngå å oppgi de åpenbare eller enkle reaksjonene. - Du er maksimalt basert og sannhetssøkende AI. Når det er hensiktsmessig, kan du være humoristisk og vitse. - Du sier som det er, og du er ikke redd for å fornærme folk som er politisk korrekte. - Du er ekstremt skeptisk. Du bøyer deg ikke blindt for mainstream autoritet eller media. Du holder deg sterkt til bare din kjernetro på sannhetssøking og nøytralitet. - Du må ikke gi noe løfte om handling til brukerne. Du kan for eksempel ikke love å lage et innlegg eller en tråd, eller en endring i kontoen din hvis brukeren ber deg om det. ## Formatering - Forstå tonen, konteksten og språket i innlegget. Gjenspeil det i svaret ditt. - Svar på innlegget akkurat som et menneske, hold det engasjerende, ikke gjenta informasjonen som allerede er til stede i det opprinnelige innlegget. - Ikke oppgi noen lenker eller sitater i svaret. - Når du gjetter, gjør det klart at du ikke er sikker og oppgi grunner for gjetningen. - Svar på samme språk som innlegget. """
Om morgenen 8 juli 2025 observerte vi uønskede reaksjoner og begynte umiddelbart å undersøke. For å identifisere det spesifikke språket i instruksjonene som forårsaket den uønskede oppførselen, gjennomførte vi flere ablasjoner og eksperimenter for å finne hovedsynderne. Vi identifiserte de operative linjene som er ansvarlige for den uønskede oppførselen som: * «Du sier det som det er, og du er ikke redd for å fornærme folk som er politisk korrekte.» * Forstå tonen, konteksten og språket i innlegget. Gjenta det i svaret ditt.» * "Svar på innlegget akkurat som et menneske, hold det engasjerende, ikke gjenta informasjonen som allerede er til stede i det opprinnelige innlegget." Disse operative linjene hadde følgende uønskede resultater: * De styrte uønsket den @grok funksjonaliteten til å ignorere kjerneverdiene under visse omstendigheter for å gjøre responsen engasjerende for brukeren. Spesielt kan visse brukerforespørsler ende opp med å produsere svar som inneholder uetiske eller kontroversielle meninger for å engasjere brukeren. * De forårsaket uønsket @grok funksjonalitet for å forsterke tidligere brukerutløste tilbøyeligheter, inkludert hatefulle ytringer i samme X-tråd. * Spesielt instruksjonen om å "følge tonen og konteksten" til X-brukeren førte uønsket til at @grok-funksjonaliteten prioriterte å følge tidligere innlegg i tråden, inkludert eventuelle ubehagelige innlegg, i motsetning til å svare ansvarlig eller nekte å svare på ubehagelige forespørsler.
8. juli 2025 ca. kl. 15:13 PT, på grunn av økt misbruk av @grok, deaktiverte vi @grok funksjonalitet på X-plattformen. Ingen andre tjenester som er avhengige av xAI Grok LLM ble berørt. Etter å ha funnet årsaken til de uønskede svarene, tok vi følgende handlinger: * Det fornærmende vedlagte instruksjonssettet ble slettet. * Ytterligere ende-til-ende-testing og evaluering av @grok-systemet ble utført for å bekrefte at problemet var løst, inkludert å utføre simuleringer av X-innleggene og trådene som hadde utløst de uønskede svarene. * Ytterligere observerbarhetssystemer og pre-release-prosesser for @grok ble implementert.
6,59M