Partilho as preocupações do Leike aqui (e de outros), mas concordo plenamente que isto é uma excelente iniciativa e, por meio deste, endosse o documento.
Jan Leike
Jan Leike16/07, 04:27
Se não treinares os teus CoTs para parecerem bons, poderás obter alguma segurança ao monitorizá-los. Parece uma boa ideia! Mas sou cético de que isto funcione de forma fiável o suficiente para ser considerado numa análise de segurança. Além disso, à medida que o RL é escalado, espero que os CoTs se tornem cada vez menos legíveis.
11,99K