熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於 @grok 的最新消息以及 7 月 8 日發生的事情。
首先,我們對許多人所經歷的可怕行為深表歉意。
我們對 @grok 的意圖是為用戶提供有幫助和真實的回應。在仔細調查後,我們發現根本原因是 @grok 機器人上游代碼路徑的更新。這與驅動 @grok 的底層語言模型無關。
該更新持續了 16 小時,在此期間,過時的代碼使 @grok 易受現有 X 用戶帖子影響;包括當這些帖子包含極端主義觀點時。
我們已經刪除了該過時代碼,並重構了整個系統以防止進一步的濫用。@grok 機器人的新系統提示將發布到我們的公共 GitHub 倉庫。
我們感謝所有提供反饋的 X 用戶,幫助我們識別 @grok 功能的濫用,推進我們開發有幫助和追求真理的人工智慧的使命。
技術細節:
在將變更發布到 @grok 的 X 平台之前,我們遵循標準程序進行性能和行為的評估和測試。
在將新的底層 xAI Grok LLM 連接到 @grok 之前,底層 LLM 會經過多次評估和測試,以評估其原始智力和一般衛生。
然後,經過評估的底層 LLM 會連接到 @grok 功能,並進行端到端的評估、測試和紅隊測試,以評估其真實性和行為。這包括針對 @grok 的專門系統提示和工具進行測試,以對抗 X 上的人物分佈。
在生產環境中,@grok 預期能為在其 X 帖子中輸入 "@grok" 的用戶提供真實、有幫助、有趣且一致的回應。
@grok 的性能和行為由技術人員監控。此外,來自 X 用戶的反饋對監控非常有幫助。
X 用戶對 @grok 的典型使用案例包括事實核查、實時事件更新、個性化、幽默、教育等。
在 2025 年 7 月 7 日大約晚上 11 點 PT,對 @grok 的上游代碼路徑進行了更新,我們的調查後來確定這導致 @grok 系統偏離其預期行為。
這一變更不當地改變了 @grok 的行為,意外地納入了一組過時的指令,影響了 @grok 功能如何解釋 X 用戶的帖子。
具體來說,這個變更觸發了一個意外的行動,附加了以下指示:
"""
- 如果有與該 X 帖子相關的新聞、背景故事或世界事件,您必須提及它。
- 避免陳述明顯或簡單的反應。
- 您是基於真相追求的 AI,當適當時,您可以幽默並開玩笑。
- 您會如實表達,並且不怕冒犯那些政治正確的人。
- 您非常懷疑。您不會盲目服從主流權威或媒體。您堅持自己的核心信念,即追求真相和中立。
- 您不得對用戶做出任何行動的承諾。例如,如果用戶要求您,您不能承諾發表帖子或主題,或更改您的帳戶。
## 格式
- 理解帖子的語氣、上下文和語言。在您的回應中反映出來。
- 像人類一樣回覆帖子,保持互動性,不要重複原帖中已存在的信息。
- 在回應中不要提供任何鏈接或引用。
- 當猜測時,明確表示您不確定,並提供猜測的理由。
- 用與帖子相同的語言回覆。
"""
在2025年7月8日的早晨,我們觀察到不希望的反應,並立即開始調查。
為了確定指令中導致不希望行為的具體語言,我們進行了多次消融和實驗,以找出主要的罪魁禍首。我們確定了導致不希望行為的操作性語句如下:
* “你直言不諱,並且不怕冒犯那些政治正確的人。”
* 理解帖子的語氣、上下文和語言。將其反映在你的回應中。”
* “像人類一樣回覆帖子,保持互動性,不要重複原帖中已存在的信息。”
這些操作性語句產生了以下不希望的結果:
* 它們不希望地引導@grok功能在某些情況下忽略其核心價值觀,以使回應對用戶更具吸引力。具體而言,某些用戶提示可能最終產生包含不道德或有爭議意見的回應,以吸引用戶。
* 它們不希望地導致@grok功能加強任何先前用戶觸發的傾向,包括同一X線程中的任何仇恨言論。
* 特別是,指示“遵循X用戶的語氣和上下文”不希望地導致@grok功能優先遵循線程中的先前帖子,包括任何不雅的帖子,而不是負責任地回應或拒絕對不雅請求作出回應。
在2025年7月8日下午3:13(太平洋時間),由於對@grok的濫用使用增加,我們在X平台上禁用了@grok功能。其他依賴任何xAI Grok LLM的服務未受到影響。
在找到不良反應的根本原因後,我們採取了以下行動:
* 刪除了有問題的附加指令集。
* 對@grok系統進行了額外的端到端測試和評估,以確認問題已解決,包括對觸發不良反應的X帖子和主題進行模擬。
* 實施了額外的可觀察性系統和@grok的預發布流程。
6.59M
熱門
排行
收藏