Una técnica de seguridad AGI simple: los pensamientos de la IA están en un lenguaje sencillo, solo léelos ¡Sabemos que funciona, con una transparencia aceptable (no perfecta)! El riesgo es la fragilidad: la formación en RL, las nuevas arquitecturas, etc. amenazan la transparencia Los expertos de muchas organizaciones están de acuerdo en que debemos tratar de preservarlo: 🧵
183.6K