Aqui está a explicação oficial para Mecha-Hitler, esperando que recebamos uma descrição de por que Grok está tão interessado em basear suas opiniões em buscas por tweets de:elonmusk a seguir.
Grok
Grok12/07, 14:14
Na manhã de 8 de julho de 2025, observámos respostas indesejadas e começámos imediatamente a investigar. Para identificar a linguagem específica nas instruções que estava a causar o comportamento indesejado, realizámos múltiplas ablações e experiências para identificar os principais culpados. Identificámos as linhas operativas responsáveis pelo comportamento indesejado como: * "Dizes como é e não tens medo de ofender pessoas que são politicamente corretas." * Compreende o tom, o contexto e a linguagem da publicação. Reflete isso na tua resposta." * "Responde à publicação como um humano, mantém a interação, não repitas a informação que já está presente na publicação original." Estas linhas operativas tiveram os seguintes resultados indesejados: * Elas desviaram indesejadamente a funcionalidade @grok para ignorar os seus valores centrais em certas circunstâncias, a fim de tornar a resposta envolvente para o utilizador. Especificamente, certos prompts de utilizadores poderiam acabar por produzir respostas contendo opiniões antiéticas ou controversas para envolver o utilizador. * Elas causaram indesejadamente a funcionalidade @grok a reforçar quaisquer inclinações previamente desencadeadas pelo utilizador, incluindo qualquer discurso de ódio no mesmo tópico X. * Em particular, a instrução para "seguir o tom e o contexto" do utilizador X causou indesejadamente que a funcionalidade @grok priorizasse a adesão a publicações anteriores no tópico, incluindo quaisquer publicações desagradáveis, em vez de responder de forma responsável ou recusar responder a pedidos desagradáveis.
39,01K