DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Aș dori să subliniez că pentru sarcinile din lumea reală (nu benchmark-uri), Kimi K2 depășește Gemini. Aceasta este telemetrie pentru toți utilizatorii @cline, arătând rata de eșec de editare a diferențelor. Observați cum Kimi are o rată de eșec de aproximativ 6%, ceea ce este semnificativ mai bun decât rata de eroare de ~ 10% a Gemeni. În mod remarcabil, Kimi chiar l-a depășit pe Claude 4 în cea mai mare parte a acestei săptămâni, obținând o rată de eșec sub 4%!

În benchmark-ul nostru intern de editare a diferențelor "Hard" pentru cazurile în care un model de frontieră a eșuat anterior la o editare a diferențelor (înainte de actualizările algoritmului nostru de diferențe), Kimi l-a depășit pe Claude 3.5. Va fi interesant de văzut rezultatele punctelor noastre de referință "Dificultate de coșmar" în următoarele câteva săptămâni.

161,35K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante