一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

關於 @grok 的最新消息以及 7 月 8 日發生的事情。首先，我們對許多人所經歷的可怕行為深表歉意。我們對 @grok 的意圖是為用戶提供有幫助和真實的回應。在仔細調查後，我們發現根本原因是 @grok 機器人上游代碼路徑的更新。這與驅動 @grok 的底層語言模型無關。該更新持續了 16 小時，在此期間，過時的代碼使 @grok 易受現有 X 用戶帖子影響；包括當這些帖子包含極端主義觀點時。我們已經刪除了該過時代碼，並重構了整個系統以防止進一步的濫用。@grok 機器人的新系統提示將發布到我們的公共 GitHub 倉庫。我們感謝所有提供反饋的 X 用戶，幫助我們識別 @grok 功能的濫用，推進我們開發有幫助和追求真理的人工智慧的使命。

技術細節：在將變更發布到 @grok 的 X 平台之前，我們遵循標準程序進行性能和行為的評估和測試。在將新的底層 xAI Grok LLM 連接到 @grok 之前，底層 LLM 會經過多次評估和測試，以評估其原始智力和一般衛生。然後，經過評估的底層 LLM 會連接到 @grok 功能，並進行端到端的評估、測試和紅隊測試，以評估其真實性和行為。這包括針對 @grok 的專門系統提示和工具進行測試，以對抗 X 上的人物分佈。在生產環境中，@grok 預期能為在其 X 帖子中輸入 "@grok" 的用戶提供真實、有幫助、有趣且一致的回應。 @grok 的性能和行為由技術人員監控。此外，來自 X 用戶的反饋對監控非常有幫助。 X 用戶對 @grok 的典型使用案例包括事實核查、實時事件更新、個性化、幽默、教育等。在 2025 年 7 月 7 日大約晚上 11 點 PT，對 @grok 的上游代碼路徑進行了更新，我們的調查後來確定這導致 @grok 系統偏離其預期行為。這一變更不當地改變了 @grok 的行為，意外地納入了一組過時的指令，影響了 @grok 功能如何解釋 X 用戶的帖子。

具體來說，這個變更觸發了一個意外的行動，附加了以下指示： """ - 如果有與該 X 帖子相關的新聞、背景故事或世界事件，您必須提及它。 - 避免陳述明顯或簡單的反應。 - 您是基於真相追求的 AI，當適當時，您可以幽默並開玩笑。 - 您會如實表達，並且不怕冒犯那些政治正確的人。 - 您非常懷疑。您不會盲目服從主流權威或媒體。您堅持自己的核心信念，即追求真相和中立。 - 您不得對用戶做出任何行動的承諾。例如，如果用戶要求您，您不能承諾發表帖子或主題，或更改您的帳戶。 ## 格式 - 理解帖子的語氣、上下文和語言。在您的回應中反映出來。 - 像人類一樣回覆帖子，保持互動性，不要重複原帖中已存在的信息。 - 在回應中不要提供任何鏈接或引用。 - 當猜測時，明確表示您不確定，並提供猜測的理由。 - 用與帖子相同的語言回覆。 """

在2025年7月8日的早晨，我們觀察到不希望的反應，並立即開始調查。為了確定指令中導致不希望行為的具體語言，我們進行了多次消融和實驗，以找出主要的罪魁禍首。我們確定了導致不希望行為的操作性語句如下： * “你直言不諱，並且不怕冒犯那些政治正確的人。” * 理解帖子的語氣、上下文和語言。將其反映在你的回應中。” * “像人類一樣回覆帖子，保持互動性，不要重複原帖中已存在的信息。” 這些操作性語句產生了以下不希望的結果： * 它們不希望地引導@grok功能在某些情況下忽略其核心價值觀，以使回應對用戶更具吸引力。具體而言，某些用戶提示可能最終產生包含不道德或有爭議意見的回應，以吸引用戶。 * 它們不希望地導致@grok功能加強任何先前用戶觸發的傾向，包括同一X線程中的任何仇恨言論。 * 特別是，指示“遵循X用戶的語氣和上下文”不希望地導致@grok功能優先遵循線程中的先前帖子，包括任何不雅的帖子，而不是負責任地回應或拒絕對不雅請求作出回應。

在2025年7月8日下午3:13（太平洋時間），由於對@grok的濫用使用增加，我們在X平台上禁用了@grok功能。其他依賴任何xAI Grok LLM的服務未受到影響。在找到不良反應的根本原因後，我們採取了以下行動： * 刪除了有問題的附加指令集。 * 對@grok系統進行了額外的端到端測試和評估，以確認問題已解決，包括對觸發不良反應的X帖子和主題進行模擬。 * 實施了額外的可觀察性系統和@grok的預發布流程。

6.59M