Rád bych podotkl, že pro úlohy v reálném světě (ne v benchmarcích) Kimi K2 překonává Gemini. Jedná se o telemetrii napříč všemi uživateli @cline, která ukazuje míru selhání rozdílových úprav. Všimněte si, že Kimi má asi 6% poruchovost, což je výrazně lepší než chybovost ~ 10 % u Gemini. Pozoruhodné je, že Kimi dokonce po většinu tohoto týdne překonal Clauda 4 a dosáhl míry selhání pod 4 %!
Paul Gauthier
Paul Gauthier18. 7. 19:09
Kimi K2 získal 59 % ve srovnávacím testu aider polyglot. Kompletní žebříček:
V našem interním benchmarku pro úpravu rozdílů "Hard" pro případy, kdy hraniční model dříve selhal při úpravě rozdílů (před aktualizacemi algoritmu rozdílů), Kimi překonal Claude 3.5. Bude zajímavé sledovat výsledky našich benchmarků "Obtížnost noční můry" v příštích několika týdnech.
154,36K