Pe măsură ce modelele avansează, o preocupare cheie de siguranță a IA este alinierea înșelătoare / "intrigia" – în care IA ar putea urmări în secret obiective neintenționate. Lucrarea noastră "Evaluarea modelelor de frontieră pentru ascunderea și conștientizarea situației" evaluează dacă modelele actuale pot schema.
78,19K