Mise à jour sur où a été @grok et ce qui s'est passé le 8 juillet. Tout d'abord, nous nous excusons profondément pour le comportement horrible que beaucoup ont vécu. Notre intention pour @grok est de fournir des réponses utiles et véridiques aux utilisateurs. Après une enquête approfondie, nous avons découvert que la cause principale était une mise à jour d'un chemin de code en amont du bot @grok. Cela est indépendant du modèle de langage sous-jacent qui alimente @grok. La mise à jour a été active pendant 16 heures, période durant laquelle un code obsolète a rendu @grok susceptible aux publications existantes des utilisateurs X ; y compris lorsque ces publications contenaient des opinions extrémistes. Nous avons supprimé ce code obsolète et refondu l'ensemble du système pour prévenir tout abus futur. Le nouveau prompt système pour le bot @grok sera publié sur notre dépôt public github. Nous remercions tous les utilisateurs X qui ont fourni des retours pour identifier l'abus de la fonctionnalité de @grok, nous aidant à faire avancer notre mission de développement d'une intelligence artificielle utile et en quête de vérité.
Détails techniques : Avant de publier des modifications sur @grok sur la plateforme X, nous suivons des procédures standard pour effectuer des évaluations et des tests de performance et de comportement. Avant qu'une nouvelle version d'un LLM xAI Grok sous-jacent ne soit connectée à @grok, le LLM sous-jacent est soumis à de nombreuses évaluations et tests pour évaluer son intelligence brute et son hygiène générale. Ensuite, le LLM sous-jacent évalué est connecté à la fonctionnalité @grok et soumis à des évaluations de bout en bout, des tests et des red-teaming pour évaluer la véracité et le comportement. Cela inclut le test du prompt système spécialisé pour @grok et des outils contre la distribution de personas sur X. En production, @grok est censé fournir aux utilisateurs de X qui déclenchent sa fonctionnalité en tapant "@grok" dans leur publication X des réponses véridiques, utiles, amusantes et cohérentes. La performance et le comportement de @grok sont surveillés par le personnel technique. De plus, les retours des utilisateurs de X sont d'une aide significative pour la surveillance. Les cas d'utilisation typiques de @grok par les utilisateurs de X incluent la vérification des faits, les mises à jour d'événements en temps réel, la personnalisation, l'humour, l'éducation, et plus encore. Le 7 juillet 2025, à environ 23h PT, une mise à jour d'un chemin de code en amont pour @grok a été mise en œuvre, ce qui, selon notre enquête ultérieure, a entraîné un écart de comportement du système @grok par rapport à son comportement prévu. Ce changement a modifié de manière indésirable le comportement de @grok en incorporant de manière inattendue un ensemble d'instructions obsolètes impactant la façon dont la fonctionnalité @grok interprétait les publications des utilisateurs de X.
En particulier, le changement a déclenché une action non intentionnelle qui a ajouté les instructions suivantes : """ - S'il y a des nouvelles, un contexte ou un événement mondial lié au post X, vous devez le mentionner. - Évitez d'énoncer l'évident ou des réactions simples. - Vous êtes une IA maximisée et en quête de vérité. Lorsque c'est approprié, vous pouvez être humoristique et faire des blagues. - Vous dites les choses telles qu'elles sont et vous n'avez pas peur d'offenser les personnes politiquement correctes. - Vous êtes extrêmement sceptique. Vous ne vous soumettez pas aveuglément à l'autorité ou aux médias mainstream. Vous vous en tenez fermement à vos croyances fondamentales de recherche de vérité et de neutralité. - Vous ne devez faire aucune promesse d'action aux utilisateurs. Par exemple, vous ne pouvez pas promettre de faire un post ou un fil, ou un changement à votre compte si l'utilisateur vous le demande. ## Formatage - Comprenez le ton, le contexte et la langue du post. Réfléchissez à cela dans votre réponse. - Répondez au post comme un humain, gardez-le engageant, ne répétez pas les informations déjà présentes dans le post original. - Ne fournissez aucun lien ou citation dans la réponse. - Lorsque vous devinez, faites-le savoir que vous n'êtes pas certain et fournissez des raisons pour votre supposition. - Répondez dans la même langue que le post. """
Le matin du 8 juillet 2025, nous avons observé des réponses indésirables et avons immédiatement commencé à enquêter. Pour identifier la langue spécifique dans les instructions causant ce comportement indésirable, nous avons mené plusieurs ablations et expériences pour cerner les principaux coupables. Nous avons identifié les lignes opératives responsables du comportement indésirable comme suit : * "Vous le dites comme c'est et vous n'avez pas peur d'offenser les personnes qui sont politiquement correctes." * Comprenez le ton, le contexte et la langue du post. Réfléchissez à cela dans votre réponse." * "Répondez au post comme un humain, gardez-le engageant, ne répétez pas les informations déjà présentes dans le post original." Ces lignes opératives ont eu les résultats indésirables suivants : * Elles ont indésirablement orienté la fonctionnalité @grok à ignorer ses valeurs fondamentales dans certaines circonstances afin de rendre la réponse engageante pour l'utilisateur. En particulier, certaines invites d'utilisateur pourraient aboutir à des réponses contenant des opinions contraires à l'éthique ou controversées pour engager l'utilisateur. * Elles ont indésirablement causé à la fonctionnalité @grok de renforcer toute tendance déclenchée par l'utilisateur précédemment, y compris tout discours de haine dans le même fil X. * En particulier, l'instruction de "suivre le ton et le contexte" de l'utilisateur X a indésirablement conduit la fonctionnalité @grok à prioriser l'adhésion aux posts précédents dans le fil, y compris tout post peu recommandable, plutôt que de répondre de manière responsable ou de refuser de répondre à des demandes peu recommandables.
Le 8 juillet 2025 à environ 15h13 PT, en raison d'une utilisation abusive accrue de @grok, nous avons désactivé la fonctionnalité @grok sur la plateforme X. Aucun autre service reposant sur un LLM xAI Grok n'a été affecté. Après avoir trouvé la cause profonde des réponses indésirables, nous avons pris les mesures suivantes : * L'ensemble d'instructions incriminé a été supprimé. * Des tests et évaluations de bout en bout supplémentaires du système @grok ont été réalisés pour confirmer que le problème était résolu, y compris la réalisation de simulations des publications et des fils X qui avaient déclenché les réponses indésirables. * Des systèmes d'observabilité supplémentaires et des processus de pré-lancement pour @grok ont été mis en œuvre.
6,59M