Două noi lucrări care elaborează abordarea noastră față de alinierea înșelătoare! Prima lucrare: evaluăm *ascunderea* și *conștientizarea situației* a modelului - dacă nu au aceste capacități, probabil că nu pot provoca daune grave.
Victoria Krakovna
Victoria Krakovna8 iul., 20:02
Pe măsură ce modelele avansează, o preocupare cheie de siguranță a IA este alinierea înșelătoare / "intrigia" – în care IA ar putea urmări în secret obiective neintenționate. Lucrarea noastră "Evaluarea modelelor de frontieră pentru ascunderea și conștientizarea situației" evaluează dacă modelele actuale pot schema.
38,47K