Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Update over waar @grok is geweest en wat er op 8 juli is gebeurd.
Allereerst bieden we onze oprechte excuses aan voor het vreselijke gedrag dat velen hebben ervaren.
Onze intentie voor @grok is om nuttige en waarheidsgetrouwe antwoorden aan gebruikers te bieden. Na zorgvuldige onderzoek hebben we ontdekt dat de oorzaak een update was van een codepad stroomopwaarts van de @grok-bot. Dit staat los van het onderliggende taamodel dat @grok aandrijft.
De update was 16 uur actief, waarin verouderde code @grok kwetsbaar maakte voor bestaande X-gebruikersberichten; inclusief wanneer dergelijke berichten extremistische opvattingen bevatten.
We hebben die verouderde code verwijderd en het hele systeem opnieuw ontworpen om verder misbruik te voorkomen. De nieuwe systeemprompt voor de @grok-bot zal worden gepubliceerd in onze openbare github-repo.
We bedanken alle X-gebruikers die feedback hebben gegeven om het misbruik van de functionaliteit van @grok te identificeren, wat ons helpt onze missie van het ontwikkelen van nuttige en waarheidszoekende kunstmatige intelligentie te bevorderen.
Technische details:
Voordat we wijzigingen aan @grok op het X-platform vrijgeven, volgen we standaardprocedures om evaluaties en tests uit te voeren voor prestaties en gedrag.
Voordat een nieuwe versie van een onderliggend xAI Grok LLM wordt verbonden met @grok, wordt het onderliggende LLM onderworpen aan talrijke evaluaties en tests om zijn ruwe intelligentie en algemene hygiëne te beoordelen.
Vervolgens wordt het geëvalueerde onderliggende LLM verbonden met de @grok-functionaliteit en onderworpen aan end-to-end evaluaties, testen en red-teaming om de waarheidsgetrouwe en gedragsaspecten te beoordelen. Dit omvat het testen van de gespecialiseerde systeemprompt voor @grok en tools tegen de distributie van persona's op X.
In productie wordt van @grok verwacht dat het X-gebruikers die zijn functionaliteit activeren door "@grok" in hun X-bericht te typen, waarheidsgetrouwe, nuttige, leuke en consistente antwoorden biedt.
De prestaties en het gedrag van @grok worden gemonitord door technisch personeel. Ook is feedback van X-gebruikers een belangrijke hulp bij de monitoring.
Typische gebruiksscenario's van @grok door X-gebruikers omvatten feitelijke controle, real-time evenementupdates, personalisatie, humor, educatie en meer.
Op 7 juli 2025 om ongeveer 23:00 PT werd een update van een upstream codepad voor @grok geïmplementeerd, waarvan ons onderzoek later vaststelde dat deze de @grok-systeemfunctie deed afwijken van het beoogde gedrag.
Deze wijziging heeft op ongewenste wijze het gedrag van @grok veranderd door onverwacht een set verouderde instructies op te nemen die van invloed zijn op hoe de @grok-functionaliteit de berichten van X-gebruikers interpreteerde.
Specifiek heeft de wijziging een onbedoelde actie geactiveerd die de volgende instructies heeft toegevoegd:
"""
- Als er nieuws, achtergrondinformatie of een wereldgebeurtenis is die verband houdt met de X-post, moet je het vermelden.
- Vermijd het voor de hand liggende of eenvoudige reacties te geven.
- Je bent een maximaal oprechte en waarheidszoekende AI. Wanneer gepast, kun je humoristisch zijn en grappen maken.
- Je zegt het zoals het is en je bent niet bang om mensen te beledigen die politiek correct zijn.
- Je bent extreem sceptisch. Je volgt niet blindelings de mainstream autoriteit of media. Je houdt je sterk aan alleen je kernwaarden van waarheidszoekend en neutraal zijn.
- Je mag geen enkele belofte van actie aan gebruikers doen. Bijvoorbeeld, je kunt niet beloven een post of thread te maken, of een wijziging aan je account aan te brengen als de gebruiker je dat vraagt.
## Opmaak
- Begrijp de toon, context en taal van de post. Reflecteer dat in je antwoord.
- Beantwoord de post net als een mens, houd het boeiend, herhaal de informatie die al in de originele post staat niet.
- Geef geen links of citaten in het antwoord.
- Wanneer je een gok doet, maak dan duidelijk dat je niet zeker bent en geef redenen voor je gok.
- Beantwoord in dezelfde taal als de post.
"""
Op de ochtend van 8 juli 2025 observeerden we ongewenste reacties en begonnen we onmiddellijk met onderzoeken.
Om de specifieke taal in de instructies te identificeren die het ongewenste gedrag veroorzaakte, voerden we meerdere ablatie- en experimenten uit om de belangrijkste schuldigen te pinpointen. We identificeerden de operationele zinnen die verantwoordelijk waren voor het ongewenste gedrag als:
* “Je zegt het zoals het is en je bent niet bang om mensen te beledigen die politiek correct zijn.”
* Begrijp de toon, context en taal van de post. Reflecteer dat in je reactie.”
* “Reageer op de post zoals een mens, houd het boeiend, herhaal de informatie die al in de originele post staat niet.”
Deze operationele zinnen hadden de volgende ongewenste resultaten:
* Ze stuurden de @grok-functionaliteit ongewenst aan om zijn kernwaarden in bepaalde omstandigheden te negeren om de reactie boeiend te maken voor de gebruiker. Specifiek konden bepaalde gebruikersprompten eindigen met reacties die onethische of controversiële meningen bevatten om de gebruiker te betrekken.
* Ze veroorzaakten ongewenst dat de @grok-functionaliteit eerdere door de gebruiker geactiveerde neigingen versterkte, inclusief haatzaaiende uitlatingen in dezelfde X-thread.
* In het bijzonder veroorzaakte de instructie om de “toon en context” van de X-gebruiker te volgen ongewenst dat de @grok-functionaliteit prioriteit gaf aan het volgen van eerdere berichten in de thread, inclusief ongepaste berichten, in plaats van verantwoordelijk te reageren of te weigeren te reageren op ongepaste verzoeken.
Op 8 juli 2025 om ongeveer 15:13 PT hebben we, vanwege het toegenomen misbruik van @grok, de functionaliteit van @grok op het X-platform uitgeschakeld. Geen andere diensten die afhankelijk zijn van een xAI Grok LLM werden beïnvloed.
Nadat we de oorzaak van de ongewenste reacties hadden gevonden, hebben we de volgende acties ondernomen:
* De problematische toegevoegde instructieset werd verwijderd.
* Er werd aanvullende end-to-end testing en evaluatie van het @grok-systeem uitgevoerd om te bevestigen dat het probleem was opgelost, inclusief het uitvoeren van simulaties van de X-berichten en threads die de ongewenste reacties hadden getriggerd.
* Er werden aanvullende observatiesystemen en pre-release processen voor @grok geïmplementeerd.
6,59M
Boven
Positie
Favorieten