Dacă nu vă antrenați CoT să arate frumos, ați putea obține o anumită siguranță prin monitorizarea lor. Pare bine de făcut! Dar sunt sceptic că acest lucru va funcționa suficient de fiabil pentru a fi portant într-un caz de siguranță. În plus, pe măsură ce RL este extins, mă aștept ca CoT să devină din ce în ce mai puțin lizibil.
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦16 iul., 00:00
O tehnică simplă de siguranță AGI: gândurile AI sunt în limba engleză, citiți-le Știm că funcționează, cu o transparență OK (nu perfectă)! Riscul este fragilitatea: instruirea RL, noile arhitecturi etc. amenință transparența Experții din multe organizații sunt de acord că ar trebui să încercăm să-l păstrăm: 🧵
Pentru a fi clar: monitorizarea CoT este utilă și vă poate permite să descoperiți cazuri de recompense de hacking ale modelului, falsificarea alinierii etc. Dar absența "gândurilor" rele nu este o dovadă că modelul este aliniat. Există o mulțime de exemple de LLM-uri prod care au CoT înșelătoare.
O mulțime de eșecuri flagrante de siguranță necesită probabil raționament, ceea ce este adesea greu de făcut pentru LLM fără a-și arăta mâna în CoT. Probabil. Adesea. O mulțime de avertismente.
Autorii acestei lucrări spun asta; Sunt doar mai pesimist decât ei cu privire la cât de util va fi acest lucru.
65,88K