DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Jika Anda tidak melatih CoT Anda agar terlihat bagus, Anda bisa mendapatkan keamanan dari memantaunya. Ini sepertinya bagus untuk dilakukan! Tapi saya skeptis ini akan bekerja cukup andal untuk menahan beban dalam kasus keselamatan. Ditambah lagi saat RL ditingkatkan, saya berharap CoT menjadi semakin kurang terbaca.

Untuk lebih jelasnya: Pemantauan CoT berguna dan memungkinkan Anda menemukan contoh hadiah peretasan model, penyelarasan palsu, dll. Tetapi tidak adanya "pikiran" buruk bukanlah bukti bahwa model tersebut selaras. Ada banyak contoh LLM prod yang memiliki CoT yang menyesatkan.

Banyak kegagalan keselamatan yang mengerikan mungkin memerlukan penalaran, yang seringkali sulit dilakukan oleh LLM tanpa menunjukkan tangannya di CoT. Barangkali. Sering. Banyak peringatan.

Penulis makalah ini mengatakan ini; Saya hanya lebih pesimis daripada mereka tentang betapa bergunanya ini.

65,85K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal