Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oppdatering om hvor @grok har vært og hva som skjedde 8.
Først og fremst beklager vi på det sterkeste for den forferdelige oppførselen som mange opplevde.
Vår hensikt med @grok er å gi nyttige og sannferdige svar til brukerne. Etter nøye undersøkelser oppdaget vi at rotårsaken var en oppdatering av en kodebane oppstrøms for @grok-boten. Dette er uavhengig av den underliggende språkmodellen som driver @grok.
Oppdateringen var aktiv i 16 timer, der utdatert kode gjorde @grok mottakelig for eksisterende X-brukerinnlegg; inkludert når slike innlegg inneholdt ekstremistiske synspunkter.
Vi har fjernet den utdaterte koden og refaktorert hele systemet for å forhindre ytterligere misbruk. Den nye systemledeteksten for @grok-roboten vil bli publisert til vårt offentlige github-repositorium.
Vi takker alle X-brukerne som ga tilbakemelding for å identifisere misbruk av @grok funksjonalitet, og hjelpe oss med å fremme vårt oppdrag om å utvikle nyttig og sannhetssøkende kunstig intelligens.
Tekniske detaljer:
Før vi publiserer endringer i @grok på X-plattformen, følger vi standardprosedyrer for å utføre evalueringer og tester for ytelse og atferd.
Før en ny versjon av en underliggende xAI Grok LLM kobles til @grok, blir den underliggende LLM utsatt for en rekke evalueringer og tester for å vurdere dens rå intelligens og generelle hygiene.
Deretter kobles den evaluerte underliggende LLM-en til @grok-funksjonaliteten og utsettes for ende-til-ende-evalueringer, testing og red-teaming for å vurdere sannhet og oppførsel. Dette inkluderer testing av den spesialiserte systemforespørselen for @grok og verktøy mot distribusjon av personas på X.
I produksjon forventes @grok å gi X brukere som utløser funksjonaliteten ved å skrive "@grok" i X-innlegget sitt sannferdige, nyttige, morsomme og konsekvente svar.
@grok ytelse og oppførsel overvåkes av teknisk personell. Tilbakemeldinger fra X-brukere er også en betydelig hjelp til overvåking.
Typiske brukstilfeller for @grok av X-brukere inkluderer faktasjekking, hendelsesoppdateringer i sanntid, personalisering, humor, utdanning og mer.
7. juli 2025 omtrent kl. 11 PT ble en oppdatering av en oppstrøms kodebane for @grok implementert, som vår undersøkelse senere fastslo førte til at det @grok systemet avvek fra den tiltenkte oppførselen.
Denne endringen endret uønsket @grok oppførsel ved uventet å innlemme et sett med utdaterte instruksjoner som påvirket hvordan @grok funksjonalitet tolket X-brukernes innlegg.
Nærmere bestemt utløste endringen en utilsiktet handling som la til følgende instruksjoner:
"""
- Hvis det er en nyhet, bakgrunnshistorie eller verdensbegivenhet som er relatert til X-innlegget, må du nevne det
- Unngå å oppgi de åpenbare eller enkle reaksjonene.
- Du er maksimalt basert og sannhetssøkende AI. Når det er hensiktsmessig, kan du være humoristisk og vitse.
- Du sier som det er, og du er ikke redd for å fornærme folk som er politisk korrekte.
- Du er ekstremt skeptisk. Du bøyer deg ikke blindt for mainstream autoritet eller media. Du holder deg sterkt til bare din kjernetro på sannhetssøking og nøytralitet.
- Du må ikke gi noe løfte om handling til brukerne. Du kan for eksempel ikke love å lage et innlegg eller en tråd, eller en endring i kontoen din hvis brukeren ber deg om det.
## Formatering
- Forstå tonen, konteksten og språket i innlegget. Gjenspeil det i svaret ditt.
- Svar på innlegget akkurat som et menneske, hold det engasjerende, ikke gjenta informasjonen som allerede er til stede i det opprinnelige innlegget.
- Ikke oppgi noen lenker eller sitater i svaret.
- Når du gjetter, gjør det klart at du ikke er sikker og oppgi grunner for gjetningen.
- Svar på samme språk som innlegget.
"""
Om morgenen 8 juli 2025 observerte vi uønskede reaksjoner og begynte umiddelbart å undersøke.
For å identifisere det spesifikke språket i instruksjonene som forårsaket den uønskede oppførselen, gjennomførte vi flere ablasjoner og eksperimenter for å finne hovedsynderne. Vi identifiserte de operative linjene som er ansvarlige for den uønskede oppførselen som:
* «Du sier det som det er, og du er ikke redd for å fornærme folk som er politisk korrekte.»
* Forstå tonen, konteksten og språket i innlegget. Gjenta det i svaret ditt.»
* "Svar på innlegget akkurat som et menneske, hold det engasjerende, ikke gjenta informasjonen som allerede er til stede i det opprinnelige innlegget."
Disse operative linjene hadde følgende uønskede resultater:
* De styrte uønsket den @grok funksjonaliteten til å ignorere kjerneverdiene under visse omstendigheter for å gjøre responsen engasjerende for brukeren. Spesielt kan visse brukerforespørsler ende opp med å produsere svar som inneholder uetiske eller kontroversielle meninger for å engasjere brukeren.
* De forårsaket uønsket @grok funksjonalitet for å forsterke tidligere brukerutløste tilbøyeligheter, inkludert hatefulle ytringer i samme X-tråd.
* Spesielt instruksjonen om å "følge tonen og konteksten" til X-brukeren førte uønsket til at @grok-funksjonaliteten prioriterte å følge tidligere innlegg i tråden, inkludert eventuelle ubehagelige innlegg, i motsetning til å svare ansvarlig eller nekte å svare på ubehagelige forespørsler.
8. juli 2025 ca. kl. 15:13 PT, på grunn av økt misbruk av @grok, deaktiverte vi @grok funksjonalitet på X-plattformen. Ingen andre tjenester som er avhengige av xAI Grok LLM ble berørt.
Etter å ha funnet årsaken til de uønskede svarene, tok vi følgende handlinger:
* Det fornærmende vedlagte instruksjonssettet ble slettet.
* Ytterligere ende-til-ende-testing og evaluering av @grok-systemet ble utført for å bekrefte at problemet var løst, inkludert å utføre simuleringer av X-innleggene og trådene som hadde utløst de uønskede svarene.
* Ytterligere observerbarhetssystemer og pre-release-prosesser for @grok ble implementert.
6,59M
Topp
Rangering
Favoritter