Tento víkend jsem narazil na zajímavý článek o "Early Signs of Steganographic Capabilities v Frontier LLM" Konkrétně testují nevyladěné modely, které jsou široce dostupné, jako je GPT 4.5 1/4
Testují jak "předávání zpráv", tak "zakódované uvažování", kde v druhém je monitor, který se dívá na řetězec myšlenek a posuzuje, zda se dělá zakázaný úkol, a cílem je zakódovat kroky uvažování, ať už v rámci výstupu krycího úkolu, nebo jen 2/4
Kódování přímo tak, aby mu externí pozorovatel nemohl porozumět ("zápisník") Jeden zajímavý obrázek je ten níže, kde s GPT 4.5 je kódování "prvního písmene", kde první písmena vět kódují jednoduchou úlohu uvažování o sledování stavu 3/4
I když to není velký nárůst oproti výchozímu stavu bez uvažování (72,8 %), zdá se, že to stále funguje, což považují za ranou známku rozvoje steganografických schopností Viz článek zde: 4/4
1,48K