Trong một bài báo chung với @OwainEvans_UK như một phần của Chương trình Học giả Anthropic, chúng tôi nghiên cứu một hiện tượng bất ngờ: học tập tiềm thức. Các mô hình ngôn ngữ có thể truyền đạt các đặc điểm của chúng cho các mô hình khác, ngay cả trong những dữ liệu có vẻ như vô nghĩa.
Owain Evans
Owain Evans22 giờ trước
Bài báo mới & kết quả bất ngờ. Các mô hình ngôn ngữ lớn (LLMs) truyền tải các đặc điểm đến các mô hình khác thông qua các tín hiệu ẩn trong dữ liệu. Các tập dữ liệu chỉ bao gồm các số 3 chữ số có thể truyền tải tình yêu dành cho cú, hoặc xu hướng xấu. 🧵
Học ngầm có thể xảy ra đối với những đặc điểm vô hại (như thích đại bàng) hoặc những đặc điểm đáng lo ngại hơn (như sự không phù hợp). Điều này có những hệ quả đối với việc đào tạo trên dữ liệu do mô hình tạo ra. Đọc thêm trên blog Khoa học Căn chỉnh của chúng tôi:
129,15K