Compartilho as preocupações de Leike aqui (e outros), mas concordo plenamente que isso é uma coisa excelente a se fazer e endosso o artigo.
Jan Leike
Jan Leike16 de jul., 04:27
Se você não treinar seus CoTs para ficarem bonitos, poderá obter alguma segurança monitorando-os. Isso parece bom de se fazer! Mas estou cético de que isso funcionará de forma confiável o suficiente para suportar carga em um caso de segurança. Além disso, à medida que o RL é ampliado, espero que os CoTs se tornem cada vez menos legíveis.
11,99K