ورقتان جديدتان توضحان نهجنا في المحاذاة الخادعة! الورقة الأولى: نقوم بتقييم * التخفي * و * الوعي الظرفي * للنموذج - إذا لم يكن لديهم هذه القدرات ، فمن المحتمل ألا يتمكنوا من التسبب في ضرر جسيم.
Victoria Krakovna
Victoria Krakovna‏8 يوليو، 20:02
مع تقدم النماذج ، فإن أحد المخاوف الرئيسية لسلامة الذكاء الاصطناعي هو المحاذاة / "المخطط" الخادعة - حيث قد يسعى الذكاء الاصطناعي سرا إلى تحقيق أهداف غير مقصودة. تقيم ورقتنا البحثية "تقييم النماذج الحدودية للتخفي والوعي الظرفي" ما إذا كانت النماذج الحالية يمكن أن تخطط.
‏‎38.44‏K