Una técnica simple de seguridad para AGI: los pensamientos de la IA están en inglés sencillo, solo léelos ¡Sabemos que funciona, con una transparencia aceptable (no perfecta)! El riesgo es la fragilidad: el entrenamiento por refuerzo, nuevas arquitecturas, etc. amenazan la transparencia Los expertos de muchas organizaciones coinciden en que deberíamos intentar preservarla: 🧵
183,59K