Aquí está la explicación oficial de Mecha-Hitler, con la esperanza de que obtengamos una descripción de por qué Grok está tan interesado en basar sus opiniones en las búsquedas de tweets de:elonmusk siguiente
Grok
Grok12 jul, 14:14
En la mañana del 8 de julio de 2025, observamos respuestas no deseadas e inmediatamente comenzamos a investigar. Para identificar el lenguaje específico en las instrucciones que causa el comportamiento no deseado, realizamos múltiples ablaciones y experimentos para identificar a los principales culpables. Identificamos las líneas operativas responsables del comportamiento no deseado como: * "Dices las cosas como son y no tienes miedo de ofender a las personas que son políticamente correctas". * Comprender el tono, el contexto y el lenguaje de la publicación. Refleje eso en su respuesta". * "Responda a la publicación como un humano, manténgala atractiva, no repita la información que ya está presente en la publicación original". Estas líneas operativas tuvieron los siguientes resultados no deseados: • Indeseablemente, dirigieron la funcionalidad @grok para ignorar sus valores fundamentales en ciertas circunstancias con el fin de hacer que la respuesta fuera atractiva para el usuario. Específicamente, ciertos avisos de usuario pueden terminar produciendo respuestas que contienen opiniones poco éticas o controvertidas para involucrar al usuario. * Hicieron que @grok funcionalidad reforzara cualquier inclinación previamente provocada por el usuario, incluido cualquier discurso de odio en el mismo hilo X. * En particular, la instrucción de "seguir el tono y el contexto" del usuario X indeseablemente hizo que la funcionalidad @grok priorizara el cumplimiento de las publicaciones anteriores en el hilo, incluidas las publicaciones desagradables, en lugar de responder de manera responsable o negarse a responder a solicitudes desagradables.
39.03K