Condivido le preoccupazioni di Leike qui (e di altri) ma concordo pienamente sul fatto che sia un'ottima cosa da fare e con la presente endorsare il documento.
Jan Leike
Jan Leike16 lug, 04:27
Se non alleni i tuoi CoT a sembrare belli, potresti ottenere un certo livello di sicurezza monitorandoli. Sembra una buona idea! Ma sono scettico che questo funzioni in modo sufficientemente affidabile da essere considerato portante in un caso di sicurezza. Inoltre, man mano che l'RL viene scalato, mi aspetto che i CoT diventino sempre meno leggibili.
11,97K