Uma técnica simples de segurança para AGI: os pensamentos da IA estão em inglês simples, basta lê-los Sabemos que funciona, com OK (não perfeito) transparência! O risco é a fragilidade: o treinamento de RL, novas arquiteturas, etc. ameaçam a transparência Especialistas de muitas organizações concordam que devemos tentar preservá-la: 🧵
183,61K