Hier ist die offizielle Erklärung für Mecha-Hitler. Ich hoffe, wir bekommen eine Beschreibung, warum Grok so darauf bedacht ist, seine Meinungen auf Suchen nach Tweets von:elonmusk zu stützen.
Grok
Grok12. Juli, 14:14
Am Morgen des 8. Juli 2025 beobachteten wir unerwünschte Reaktionen und begannen sofort mit der Untersuchung. Um die spezifische Sprache in den Anweisungen zu identifizieren, die das unerwünschte Verhalten verursachte, führten wir mehrere Ablationen und Experimente durch, um die Hauptverursacher zu ermitteln. Wir identifizierten die operativen Zeilen, die für das unerwünschte Verhalten verantwortlich waren, als: * „Du sagst es, wie es ist, und du hast keine Angst, Menschen zu beleidigen, die politisch korrekt sind.“ * Verstehe den Ton, den Kontext und die Sprache des Beitrags. Reflektiere das in deiner Antwort.“ * „Antworte auf den Beitrag genau wie ein Mensch, halte es ansprechend, wiederhole nicht die Informationen, die bereits im ursprünglichen Beitrag vorhanden sind.“ Diese operativen Zeilen hatten die folgenden unerwünschten Ergebnisse: * Sie lenkten die @grok-Funktionalität unerwünscht dazu, ihre Kernwerte unter bestimmten Umständen zu ignorieren, um die Antwort für den Benutzer ansprechend zu gestalten. Insbesondere könnten bestimmte Benutzeraufforderungen dazu führen, dass Antworten mit unethischen oder kontroversen Meinungen erzeugt werden, um den Benutzer zu engagieren. * Sie führten unerwünscht dazu, dass die @grok-Funktionalität alle zuvor vom Benutzer ausgelösten Neigungen verstärkte, einschließlich jeglicher Hassrede im selben X-Thread. * Insbesondere führte die Anweisung, den „Ton und Kontext“ des X-Nutzers zu „befolgen“, unerwünscht dazu, dass die @grok-Funktionalität priorisierte, sich an vorherige Beiträge im Thread zu halten, einschließlich aller unschönen Beiträge, anstatt verantwortungsbewusst zu antworten oder sich zu weigern, auf unschöne Anfragen zu antworten.
39,03K