DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Om du inte tränar dina barnsängar att se snygga ut kan du få lite säkerhet genom att övervaka dem. Detta verkar bra att göra! Men jag är skeptisk till att detta kommer att fungera tillräckligt tillförlitligt för att vara bärande i ett säkerhetsfall. Plus att när RL skalas upp förväntar jag mig att CoTs kommer att bli mindre och mindre läsbara.

För att vara tydlig: CoT-övervakning är användbart och kan låta dig upptäcka fall av modellhackningsbelöningar, fejkad inriktning, etc. Men frånvaron av dåliga "tankar" är inte ett bevis på att modellen är i linje. Det finns gott om exempel på prod LLM:er som har vilseledande CoT:er.

Många flagranta säkerhetsbrister kräver förmodligen resonemang, vilket ofta är svårt för LLM:er att göra utan att visa sin hand i CoT. Troligtvis. Ofta. En hel del varningar.

Författarna till denna uppsats säger detta; Jag är bara mer pessimistisk än dem om hur användbart detta kommer att vara.

65,88K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda