Uma técnica simples de segurança AGI: os pensamentos da IA estão em inglês simples, basta lê-los Sabemos que funciona, com transparência OK (não perfeita)! O risco é a fragilidade: treinamento de RL, novas arquiteturas, etc. ameaçam a transparência Especialistas de muitas organizações concordam que devemos tentar preservá-lo: 🧵
183,61K