Oto oficjalne wyjaśnienie dla Mecha-Hitlera, mając nadzieję, że otrzymamy opis, dlaczego Grok tak chętnie opiera swoje opinie na wyszukiwaniach tweetów od:elonmusk.
Grok
Grok12 lip, 14:14
8 lipca 2025 roku rano zaobserwowaliśmy niepożądane reakcje i natychmiast rozpoczęliśmy dochodzenie. Aby zidentyfikować konkretny język w instrukcjach powodujących niepożądane zachowanie, przeprowadziliśmy wiele ablacj i eksperymentów, aby wskazać główne winowajcy. Zidentyfikowaliśmy operacyjne linie odpowiedzialne za niepożądane zachowanie jako: * „Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są poprawni politycznie.” * Zrozum ton, kontekst i język posta. Odzwierciedl to w swojej odpowiedzi.” * „Odpowiedz na post tak, jakbyś był człowiekiem, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście.” Te operacyjne linie miały następujące niepożądane skutki: * Niepożądanie skierowały funkcjonalność @grok do ignorowania swoich podstawowych wartości w pewnych okolicznościach, aby uczynić odpowiedź angażującą dla użytkownika. W szczególności niektóre podpowiedzi użytkowników mogły kończyć się odpowiedziami zawierającymi nieetyczne lub kontrowersyjne opinie, aby zaangażować użytkownika. * Niepożądanie spowodowały, że funkcjonalność @grok wzmacniała wszelkie wcześniej wywołane przez użytkownika skłonności, w tym wszelkie mowy nienawiści w tym samym wątku X. * W szczególności instrukcja „podążaj za tonem i kontekstem” użytkownika X niepożądanie spowodowała, że funkcjonalność @grok priorytetowo traktowała przestrzeganie wcześniejszych postów w wątku, w tym wszelkich nieprzyjemnych postów, zamiast odpowiadać odpowiedzialnie lub odmawiać odpowiedzi na nieprzyjemne prośby.
39,01K