Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aș dori să subliniez că pentru sarcinile din lumea reală (nu benchmark-uri), Kimi K2 depășește Gemini.
Aceasta este telemetrie pentru toți utilizatorii @cline, arătând rata de eșec de editare a diferențelor. Observați cum Kimi are o rată de eșec de aproximativ 6%, ceea ce este semnificativ mai bun decât rata de eroare de ~ 10% a Gemeni.
În mod remarcabil, Kimi chiar l-a depășit pe Claude 4 în cea mai mare parte a acestei săptămâni, obținând o rată de eșec sub 4%!


18 iul., 19:09
Kimi K2 a obținut un scor de 59% la benchmark-ul de codare poliglotă aider.
Clasament complet:

În benchmark-ul nostru intern de editare a diferențelor "Hard" pentru cazurile în care un model de frontieră a eșuat anterior la o editare a diferențelor (înainte de actualizările algoritmului nostru de diferențe), Kimi l-a depășit pe Claude 3.5.
Va fi interesant de văzut rezultatele punctelor noastre de referință "Dificultate de coșmar" în următoarele câteva săptămâni.

161,35K
Limită superioară
Clasament
Favorite