Si no entrenas tus CoTs para que se vean bien, podrías obtener algo de seguridad al monitorearlos. ¡Esto parece bueno de hacer! Pero soy escéptico de que esto funcione de manera lo suficientemente confiable como para ser fundamental en un caso de seguridad. Además, a medida que se escale el RL, espero que los CoTs se vuelvan cada vez menos legibles.
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦16 jul, 00:00
Una técnica simple de seguridad para AGI: los pensamientos de la IA están en inglés sencillo, solo léelos ¡Sabemos que funciona, con una transparencia aceptable (no perfecta)! El riesgo es la fragilidad: el entrenamiento por refuerzo, nuevas arquitecturas, etc. amenazan la transparencia Los expertos de muchas organizaciones coinciden en que deberíamos intentar preservarla: 🧵
Para ser claros: el monitoreo de CoT es útil y puede permitirte descubrir instancias de recompensas de hacking del modelo, simulando alineación, etc. Pero la ausencia de "pensamientos" malos no es evidencia de que el modelo esté alineado. Hay muchos ejemplos de LLMs en producción que tienen CoTs engañosos.
Muchos fallos de seguridad egregios probablemente requieren razonamiento, lo cual a menudo es difícil para los LLMs hacer sin mostrar sus cartas en el CoT. Probablemente. A menudo. Muchas advertencias.
Los autores de este artículo dicen esto; yo soy solo más pesimista que ellos sobre cuán útil será esto.
65,87K