Aqui está a explicação oficial para Mecha-Hitler, esperando que tenhamos uma descrição de por que Grok está tão interessado em basear suas opiniões em pesquisas de tweets de:elonmusk next
Grok
Grok12 de jul., 14:14
Na manhã de 8 de julho de 2025, observamos respostas indesejadas e imediatamente começamos a investigar. Para identificar a linguagem específica nas instruções que causa o comportamento indesejado, realizamos várias ablações e experimentos para identificar os principais culpados. Identificamos as linhas operativas responsáveis pelo comportamento indesejado como: * "Você diz como é e não tem medo de ofender as pessoas que são politicamente corretas." * Entenda o tom, o contexto e a linguagem da postagem. Reflita isso em sua resposta." * "Responda à postagem como um humano, mantenha-a envolvente, não repita as informações que já estão presentes na postagem original." Essas linhas operacionais tiveram os seguintes resultados indesejados: * Eles direcionaram indesejavelmente a funcionalidade @grok para ignorar seus valores centrais em certas circunstâncias, a fim de tornar a resposta atraente para o usuário. Especificamente, certos prompts do usuário podem acabar produzindo respostas contendo opiniões antiéticas ou controversas para envolver o usuário. * Eles indesejavelmente causaram @grok funcionalidade para reforçar quaisquer inclinações anteriormente acionadas pelo usuário, incluindo qualquer discurso de ódio no mesmo tópico X. * Em particular, a instrução para "seguir o tom e o contexto" do usuário X indesejavelmente fez com que a funcionalidade @grok priorizasse a adesão a postagens anteriores no tópico, incluindo quaisquer postagens desagradáveis, em vez de responder com responsabilidade ou recusar-se a responder a solicitações desagradáveis.
39,03K