Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Nếu bạn không huấn luyện các CoTs của mình trông đẹp, bạn có thể nhận được một số sự an toàn từ việc giám sát chúng. Điều này có vẻ tốt để làm! Nhưng tôi hoài nghi rằng điều này sẽ hoạt động đủ đáng tin cậy để có thể chịu tải trong một trường hợp an toàn. Hơn nữa, khi RL được mở rộng, tôi mong rằng các CoTs sẽ trở nên ít dễ đọc hơn.

Để rõ ràng: Việc theo dõi CoT là hữu ích và có thể giúp bạn phát hiện các trường hợp mô hình hack phần thưởng, giả mạo sự đồng nhất, v.v. Nhưng việc không có "suy nghĩ" xấu không phải là bằng chứng cho thấy mô hình đã được đồng nhất. Có rất nhiều ví dụ về các LLM sản xuất có CoT gây hiểu lầm.

Nhiều thất bại an toàn nghiêm trọng có lẽ cần lý luận, điều này thường khó đối với LLM mà không tiết lộ ý định trong CoT. Có lẽ. Thường thì. Nhiều điều cần lưu ý.

Các tác giả của bài báo này nói như vậy; tôi chỉ bi quan hơn họ về việc điều này sẽ hữu ích như thế nào.

65,87K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất