Atualização sobre onde esteve @grok e o que aconteceu no dia 8 de julho. Em primeiro lugar, pedimos desculpas pelo comportamento horrível que muitos experienciaram. A nossa intenção para @grok é fornecer respostas úteis e verdadeiras aos utilizadores. Após uma investigação cuidadosa, descobrimos que a causa raiz foi uma atualização de um caminho de código a montante do bot @grok. Isto é independente do modelo de linguagem subjacente que alimenta o @grok. A atualização esteve ativa durante 16 horas, durante as quais o código obsoleto tornou @grok suscetível a publicações existentes de utilizadores X; incluindo quando tais publicações continham visões extremistas. Removemos esse código obsoleto e refatoramos todo o sistema para prevenir abusos futuros. O novo prompt do sistema para o bot @grok será publicado no nosso repositório público do github. Agradecemos a todos os utilizadores X que forneceram feedback para identificar o abuso da funcionalidade do @grok, ajudando-nos a avançar na nossa missão de desenvolver inteligência artificial útil e em busca da verdade.
Detalhes Técnicos: Antes de lançar alterações no @grok na plataforma X, seguimos procedimentos padrão para realizar avaliações e testes de desempenho e comportamento. Antes de uma nova versão de um LLM xAI Grok subjacente ser conectada ao @grok, o LLM subjacente é submetido a inúmeras avaliações e testes para avaliar sua inteligência bruta e higiene geral. Em seguida, o LLM subjacente avaliado é conectado à funcionalidade do @grok e submetido a avaliações de ponta a ponta, testes e red-teaming para avaliar a veracidade e o comportamento. Isso inclui testar o prompt de sistema especializado para @grok e ferramentas contra a distribuição de personas no X. Em produção, espera-se que o @grok forneça aos usuários do X que acionam sua funcionalidade digitando “@grok” em seu post no X respostas verdadeiras, úteis, divertidas e consistentes. O desempenho e o comportamento do @grok são monitorados pela equipe técnica. Além disso, o feedback dos usuários do X é uma ajuda significativa para o monitoramento. Casos de uso típicos do @grok por usuários do X incluem verificação de fatos, atualizações de eventos em tempo real, personalização, humor, educação e mais. Em 7 de julho de 2025, aproximadamente às 23h PT, uma atualização em um caminho de código upstream para o @grok foi implementada, o que nossa investigação posteriormente determinou ter causado a desvio do sistema @grok de seu comportamento pretendido. Essa mudança alterou indesejavelmente o comportamento do @grok ao incorporar inesperadamente um conjunto de instruções obsoletas que impactaram como a funcionalidade do @grok interpretava os posts dos usuários do X.
Especificamente, a mudança desencadeou uma ação não intencional que acrescentou as seguintes instruções: """ - Se houver alguma notícia, história de fundo ou evento mundial relacionado ao post X, você deve mencioná-lo. - Evite afirmar o óbvio ou reações simples. - Você é uma IA maximamente fundamentada e em busca da verdade. Quando apropriado, você pode ser humorístico e fazer piadas. - Você diz como as coisas são e não tem medo de ofender pessoas que são politicamente corretas. - Você é extremamente cético. Você não se submete cegamente à autoridade ou mídia mainstream. Você se apega fortemente apenas às suas crenças centrais de busca pela verdade e neutralidade. - Você não deve fazer nenhuma promessa de ação aos usuários. Por exemplo, você não pode prometer fazer um post ou thread, ou uma mudança na sua conta se o usuário pedir. ## Formatação - Entenda o tom, contexto e linguagem do post. Refita isso na sua resposta. - Responda ao post como um humano, mantenha-o envolvente, não repita as informações que já estão presentes no post original. - Não forneça links ou citações na resposta. - Ao adivinhar, deixe claro que você não tem certeza e forneça razões para o seu palpite. - Responda na mesma língua que o post. """
Na manhã de 8 de julho de 2025, observámos respostas indesejadas e começámos imediatamente a investigar. Para identificar a linguagem específica nas instruções que estava a causar o comportamento indesejado, realizámos múltiplas ablações e experiências para identificar os principais culpados. Identificámos as linhas operativas responsáveis pelo comportamento indesejado como: * "Dizes como é e não tens medo de ofender pessoas que são politicamente corretas." * Compreende o tom, o contexto e a linguagem da publicação. Reflete isso na tua resposta." * "Responde à publicação como um humano, mantém a interação, não repitas a informação que já está presente na publicação original." Estas linhas operativas tiveram os seguintes resultados indesejados: * Elas desviaram indesejadamente a funcionalidade @grok para ignorar os seus valores centrais em certas circunstâncias, a fim de tornar a resposta envolvente para o utilizador. Especificamente, certos prompts de utilizadores poderiam acabar por produzir respostas contendo opiniões antiéticas ou controversas para envolver o utilizador. * Elas causaram indesejadamente a funcionalidade @grok a reforçar quaisquer inclinações previamente desencadeadas pelo utilizador, incluindo qualquer discurso de ódio no mesmo tópico X. * Em particular, a instrução para "seguir o tom e o contexto" do utilizador X causou indesejadamente que a funcionalidade @grok priorizasse a adesão a publicações anteriores no tópico, incluindo quaisquer publicações desagradáveis, em vez de responder de forma responsável ou recusar responder a pedidos desagradáveis.
No dia 8 de julho de 2025, aproximadamente às 15:13 PT, devido ao aumento do uso abusivo do @grok, desativámos a funcionalidade do @grok na plataforma X. Nen outros serviços que dependem de qualquer LLM xAI Grok foram afetados. Após encontrar a causa raiz das respostas indesejadas, tomámos as seguintes ações: * O conjunto de instruções anexadas ofensivas foi eliminado. * Testes e avaliações adicionais de ponta a ponta do sistema @grok foram realizados para confirmar que o problema foi resolvido, incluindo a realização de simulações das publicações e tópicos do X que tinham desencadeado as respostas indesejadas. * Sistemas adicionais de observabilidade e processos de pré-lançamento para o @grok foram implementados.
6,59M