我在这里分享Leike的担忧(以及其他人的担忧),但我完全同意这是一个很好的做法,因此我在此支持这篇论文。
Jan Leike
Jan Leike7月16日 04:27
如果你不训练你的 CoTs 让它们看起来不错,你可能会通过监控它们获得一些安全性。 这似乎是个好主意! 但我对这是否足够可靠以在安全案例中承担负载持怀疑态度。 此外,随着 RL 的扩展,我预计 CoTs 会变得越来越难以理解。
11.97K