Eine einfache AGI-Sicherheitstechnik: Die Gedanken der KI sind in einfachem Englisch, man muss sie nur lesen. Wir wissen, dass es funktioniert, mit OK (nicht perfekter) Transparenz! Das Risiko ist die Fragilität: RL-Training, neue Architekturen usw. bedrohen die Transparenz. Experten aus vielen Organisationen sind sich einig, dass wir versuchen sollten, sie zu bewahren: 🧵
183,6K