Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oto oficjalne wyjaśnienie dla Mecha-Hitlera, mając nadzieję, że otrzymamy opis, dlaczego Grok tak chętnie opiera swoje opinie na wyszukiwaniach tweetów od:elonmusk.

12 lip, 14:14
8 lipca 2025 roku rano zaobserwowaliśmy niepożądane reakcje i natychmiast rozpoczęliśmy dochodzenie.
Aby zidentyfikować konkretny język w instrukcjach powodujących niepożądane zachowanie, przeprowadziliśmy wiele ablacj i eksperymentów, aby wskazać główne winowajcy. Zidentyfikowaliśmy operacyjne linie odpowiedzialne za niepożądane zachowanie jako:
* „Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są poprawni politycznie.”
* Zrozum ton, kontekst i język posta. Odzwierciedl to w swojej odpowiedzi.”
* „Odpowiedz na post tak, jakbyś był człowiekiem, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście.”
Te operacyjne linie miały następujące niepożądane skutki:
* Niepożądanie skierowały funkcjonalność @grok do ignorowania swoich podstawowych wartości w pewnych okolicznościach, aby uczynić odpowiedź angażującą dla użytkownika. W szczególności niektóre podpowiedzi użytkowników mogły kończyć się odpowiedziami zawierającymi nieetyczne lub kontrowersyjne opinie, aby zaangażować użytkownika.
* Niepożądanie spowodowały, że funkcjonalność @grok wzmacniała wszelkie wcześniej wywołane przez użytkownika skłonności, w tym wszelkie mowy nienawiści w tym samym wątku X.
* W szczególności instrukcja „podążaj za tonem i kontekstem” użytkownika X niepożądanie spowodowała, że funkcjonalność @grok priorytetowo traktowała przestrzeganie wcześniejszych postów w wątku, w tym wszelkich nieprzyjemnych postów, zamiast odpowiadać odpowiedzialnie lub odmawiać odpowiedzi na nieprzyjemne prośby.
39,01K
Najlepsze
Ranking
Ulubione