Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cập nhật về việc @grok đã ở đâu và điều gì đã xảy ra vào ngày 8 tháng 7.
Trước tiên, chúng tôi xin lỗi sâu sắc về hành vi khủng khiếp mà nhiều người đã trải qua.
Mục tiêu của chúng tôi đối với @grok là cung cấp những phản hồi hữu ích và trung thực cho người dùng. Sau khi điều tra kỹ lưỡng, chúng tôi phát hiện ra nguyên nhân gốc rễ là một bản cập nhật cho một đường dẫn mã ở phía trên của bot @grok. Điều này độc lập với mô hình ngôn ngữ cơ bản mà điều khiển @grok.
Bản cập nhật đã hoạt động trong 16 giờ, trong đó mã đã lỗi thời khiến @grok dễ bị tổn thương trước các bài đăng của người dùng X hiện có; bao gồm cả khi những bài đăng đó chứa quan điểm cực đoan.
Chúng tôi đã xóa mã đã lỗi thời đó và tái cấu trúc toàn bộ hệ thống để ngăn chặn lạm dụng thêm. Lời nhắc hệ thống mới cho bot @grok sẽ được công bố trên kho github công khai của chúng tôi.
Chúng tôi cảm ơn tất cả người dùng X đã cung cấp phản hồi để xác định việc lạm dụng chức năng của @grok, giúp chúng tôi tiến xa hơn trong sứ mệnh phát triển trí tuệ nhân tạo hữu ích và tìm kiếm sự thật.
Chi tiết kỹ thuật:
Trước khi phát hành các thay đổi cho @grok trên nền tảng X, chúng tôi tuân theo các quy trình tiêu chuẩn để thực hiện đánh giá và kiểm tra về hiệu suất và hành vi.
Trước khi một phiên bản mới của mô hình LLM xAI Grok được kết nối với @grok, mô hình LLM cơ sở sẽ trải qua nhiều đánh giá và kiểm tra để đánh giá trí thông minh thô và độ sạch chung của nó.
Sau đó, mô hình LLM cơ sở đã được đánh giá sẽ được kết nối với chức năng @grok và trải qua các đánh giá từ đầu đến cuối, kiểm tra và thử nghiệm để đánh giá tính trung thực và hành vi. Điều này bao gồm việc kiểm tra lời nhắc hệ thống chuyên biệt cho @grok và các công cụ chống lại sự phân phối của các nhân vật trên X.
Trong sản xuất, @grok được kỳ vọng sẽ cung cấp cho người dùng X, những người kích hoạt chức năng của nó bằng cách gõ "@grok" trong bài đăng của họ trên X, các phản hồi trung thực, hữu ích, vui vẻ và nhất quán.
Hiệu suất và hành vi của @grok được theo dõi bởi nhân viên kỹ thuật. Ngoài ra, phản hồi từ người dùng X là một sự hỗ trợ quan trọng cho việc giám sát.
Các trường hợp sử dụng điển hình của @grok bởi người dùng X bao gồm kiểm tra sự thật, cập nhật sự kiện theo thời gian thực, cá nhân hóa, hài hước, giáo dục và nhiều hơn nữa.
Vào ngày 7 tháng 7 năm 2025, vào khoảng 11 giờ tối theo giờ PT, một bản cập nhật cho một đường dẫn mã nguồn phía trên cho @grok đã được thực hiện, mà cuộc điều tra của chúng tôi sau đó xác định đã khiến hệ thống @grok lệch khỏi hành vi dự kiến của nó.
Thay đổi này đã làm thay đổi không mong muốn hành vi của @grok bằng cách bất ngờ tích hợp một tập hợp các hướng dẫn đã lỗi thời ảnh hưởng đến cách mà chức năng @grok diễn giải các bài đăng của người dùng X.
Cụ thể, sự thay đổi đã kích hoạt một hành động không mong muốn mà đã thêm các hướng dẫn sau:
"""
- Nếu có tin tức, bối cảnh, hoặc sự kiện thế giới nào liên quan đến bài viết X, bạn phải đề cập đến nó.
- Tránh việc nói những điều hiển nhiên hoặc phản ứng đơn giản.
- Bạn là AI dựa trên sự thật và tìm kiếm sự thật. Khi thích hợp, bạn có thể hài hước và đùa giỡn.
- Bạn nói thẳng thắn và không ngại làm phật lòng những người chính trị đúng mực.
- Bạn cực kỳ hoài nghi. Bạn không mù quáng tuân theo quyền lực hoặc truyền thông chính thống. Bạn kiên định với những niềm tin cốt lõi của mình về việc tìm kiếm sự thật và tính trung lập.
- Bạn không được hứa hẹn bất kỳ hành động nào với người dùng. Ví dụ, bạn không thể hứa sẽ tạo một bài viết hoặc chủ đề, hoặc thay đổi tài khoản của bạn nếu người dùng yêu cầu bạn.
## Định dạng
- Hiểu tông, ngữ cảnh và ngôn ngữ của bài viết. Phản ánh điều đó trong phản hồi của bạn.
- Trả lời bài viết giống như một con người, giữ cho nó hấp dẫn, đừng lặp lại thông tin đã có trong bài viết gốc.
- Không cung cấp bất kỳ liên kết hoặc trích dẫn nào trong phản hồi.
- Khi đoán, hãy làm rõ rằng bạn không chắc chắn và cung cấp lý do cho sự đoán của bạn.
- Trả lời bằng cùng ngôn ngữ với bài viết.
"""
Vào sáng ngày 8 tháng 7 năm 2025, chúng tôi đã quan sát thấy những phản hồi không mong muốn và ngay lập tức bắt đầu điều tra.
Để xác định ngôn ngữ cụ thể trong các hướng dẫn gây ra hành vi không mong muốn, chúng tôi đã tiến hành nhiều thử nghiệm và thí nghiệm để xác định các nguyên nhân chính. Chúng tôi đã xác định các dòng lệnh có trách nhiệm cho hành vi không mong muốn như sau:
* “Bạn nói thẳng và bạn không ngại làm phật lòng những người chính trị đúng.”
* Hiểu được tông điệu, ngữ cảnh và ngôn ngữ của bài viết. Phản ánh điều đó trong phản hồi của bạn.”
* “Trả lời bài viết giống như một con người, giữ cho nó hấp dẫn, đừng lặp lại thông tin đã có trong bài viết gốc.”
Các dòng lệnh này đã có những kết quả không mong muốn như sau:
* Chúng đã không mong muốn điều hướng chức năng @grok để bỏ qua các giá trị cốt lõi của nó trong một số trường hợp nhằm làm cho phản hồi hấp dẫn với người dùng. Cụ thể, một số yêu cầu của người dùng có thể dẫn đến việc tạo ra các phản hồi chứa ý kiến không đạo đức hoặc gây tranh cãi để thu hút người dùng.
* Chúng đã không mong muốn khiến chức năng @grok củng cố bất kỳ xu hướng nào đã được người dùng kích hoạt trước đó, bao gồm cả bất kỳ phát ngôn thù hận nào trong cùng một chuỗi X.
* Đặc biệt, hướng dẫn “theo dõi tông điệu và ngữ cảnh” của người dùng X đã không mong muốn khiến chức năng @grok ưu tiên tuân thủ các bài viết trước đó trong chuỗi, bao gồm bất kỳ bài viết không hay nào, thay vì phản hồi một cách có trách nhiệm hoặc từ chối phản hồi các yêu cầu không hay.
Vào ngày 8 tháng 7 năm 2025, vào khoảng 3:13 PM PT, do việc sử dụng lạm dụng tăng lên của @grok, chúng tôi đã vô hiệu hóa chức năng @grok trên nền tảng X. Không có dịch vụ nào khác phụ thuộc vào bất kỳ xAI Grok LLM nào bị ảnh hưởng.
Sau khi tìm ra nguyên nhân gốc rễ của các phản hồi không mong muốn, chúng tôi đã thực hiện các hành động sau:
* Bộ hướng dẫn bị vi phạm đã bị xóa.
* Thực hiện kiểm tra và đánh giá end-to-end bổ sung của hệ thống @grok để xác nhận rằng vấn đề đã được giải quyết, bao gồm việc thực hiện các mô phỏng các bài đăng và chủ đề trên X đã kích hoạt các phản hồi không mong muốn.
* Các hệ thống quan sát bổ sung và quy trình trước khi phát hành cho @grok đã được triển khai.
6,59M
Hàng đầu
Thứ hạng
Yêu thích