我想指出,對於現實世界的任務(而非基準測試),Kimi K2 的表現超過了 Gemini。 這是所有 @cline 用戶的遙測數據,顯示了不同的編輯失敗率。注意 Kimi 的失敗率約為 6%,這明顯優於 Gemini 約 10% 的錯誤率。 值得注意的是,Kimi 在本週的大部分時間內甚至超越了 Claude 4,達到了低於 4% 的失敗率!
Paul Gauthier
Paul Gauthier7月18日 19:09
Kimi K2 在 aider polyglot 編碼基準測試中得分 59%。 完整排行榜:
在我們的內部「硬」差異編輯基準測試中,針對之前在差異編輯中失敗的前沿模型(在我們的差異算法更新之前),Kimi 超越了 Claude 3.5。 在接下來的幾週內,看到我們的「噩夢難度」基準測試的結果將會很有趣。
157.2K