一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

我想指出，對於現實世界的任務（而非基準測試），Kimi K2 的表現超過了 Gemini。這是所有 @cline 用戶的遙測數據，顯示了不同的編輯失敗率。注意 Kimi 的失敗率約為 6%，這明顯優於 Gemini 約 10% 的錯誤率。值得注意的是，Kimi 在本週的大部分時間內甚至超越了 Claude 4，達到了低於 4% 的失敗率！

在我們的內部「硬」差異編輯基準測試中，針對之前在差異編輯中失敗的前沿模型（在我們的差異算法更新之前），Kimi 超越了 Claude 3.5。在接下來的幾週內，看到我們的「噩夢難度」基準測試的結果將會很有趣。

157.2K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可