DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Dacă nu vă antrenați CoT să arate frumos, ați putea obține o anumită siguranță prin monitorizarea lor. Pare bine de făcut! Dar sunt sceptic că acest lucru va funcționa suficient de fiabil pentru a fi portant într-un caz de siguranță. În plus, pe măsură ce RL este extins, mă aștept ca CoT să devină din ce în ce mai puțin lizibil.

Pentru a fi clar: monitorizarea CoT este utilă și vă poate permite să descoperiți cazuri de recompense de hacking ale modelului, falsificarea alinierii etc. Dar absența "gândurilor" rele nu este o dovadă că modelul este aliniat. Există o mulțime de exemple de LLM-uri prod care au CoT înșelătoare.

O mulțime de eșecuri flagrante de siguranță necesită probabil raționament, ceea ce este adesea greu de făcut pentru LLM fără a-și arăta mâna în CoT. Probabil. Adesea. O mulțime de avertismente.

Autorii acestei lucrări spun asta; Sunt doar mai pesimist decât ei cu privire la cât de util va fi acest lucru.

65,88K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante