Natknąłem się w ten weekend na interesujący artykuł o „Wczesnych oznakach zdolności steganograficznych w Frontier LLM” Specjalnie testują modele, które nie były dostosowywane, a które są powszechnie dostępne, takie jak GPT 4.5 1/4
Testują zarówno "przekazywanie wiadomości", jak i "kodowane rozumowanie", gdzie w tym drugim przypadku jest monitor, który obserwuje łańcuch myślenia i ocenia, czy wykonywane jest zabronione zadanie, a celem jest zakodowanie kroków rozumowania, albo w ramach wyjścia zadania przykrywającego, albo po prostu 2/4
kodowanie go bezpośrednio w taki sposób, aby zewnętrzny obserwator nie mógł tego zrozumieć („notatnik”) Jednym interesującym obrazem jest ten poniżej, gdzie z GPT 4.5 zastosowano kodowanie „pierwszej litery”, w którym pierwsze litery zdań kodują prostą zadanie śledzenia stanu 3/4
Chociaż nie jest to ogromny wzrost w porównaniu do podstawowego poziomu braku rozumowania (72,8%), nadal wydaje się działać, co postrzegają jako wczesny sygnał rozwijania umiejętności steganograficznych. Zobacz artykuł tutaj: 4/4
1,54K