En enkel AGI-sikkerhetsteknikk: AIs tanker er på vanlig engelsk, bare les dem Vi vet at det fungerer, med OK (ikke perfekt) åpenhet! Risikoen er skjørhet: RL-trening, nye arkitekturer osv truer åpenheten Eksperter fra mange organisasjoner er enige om at vi bør prøve å bevare den: 🧵
183,6K