Aș dori să subliniez că pentru sarcinile din lumea reală (nu benchmark-uri), Kimi K2 depășește Gemini. Aceasta este telemetrie pentru toți utilizatorii @cline, arătând rata de eșec de editare a diferențelor. Observați cum Kimi are o rată de eșec de aproximativ 6%, ceea ce este semnificativ mai bun decât rata de eroare de ~ 10% a Gemeni. În mod remarcabil, Kimi chiar l-a depășit pe Claude 4 în cea mai mare parte a acestei săptămâni, obținând o rată de eșec sub 4%!
Paul Gauthier
Paul Gauthier18 iul., 19:09
Kimi K2 a obținut un scor de 59% la benchmark-ul de codare poliglotă aider. Clasament complet:
În benchmark-ul nostru intern de editare a diferențelor "Hard" pentru cazurile în care un model de frontieră a eșuat anterior la o editare a diferențelor (înainte de actualizările algoritmului nostru de diferențe), Kimi l-a depășit pe Claude 3.5. Va fi interesant de văzut rezultatele punctelor noastre de referință "Dificultate de coșmar" în următoarele câteva săptămâni.
161,35K