O tehnică simplă de siguranță AGI: gândurile AI sunt în limba engleză, citiți-le Știm că funcționează, cu o transparență OK (nu perfectă)! Riscul este fragilitatea: instruirea RL, noile arhitecturi etc. amenință transparența Experții din multe organizații sunt de acord că ar trebui să încercăm să-l păstrăm: 🧵
183,59K