Khi các mô hình phát triển, một mối quan tâm chính về an toàn AI là sự phù hợp lừa dối / "âm thầm" – nơi AI có thể âm thầm theo đuổi các mục tiêu không mong muốn. Bài báo của chúng tôi "Đánh giá các mô hình tiên tiến về khả năng ẩn mình và nhận thức tình huống" đánh giá xem các mô hình hiện tại có thể âm thầm thực hiện kế hoạch hay không.
78,19K