Chciałbym zwrócić uwagę, że w przypadku rzeczywistych zadań (nie benchmarków) Kimi K2 przewyższa Gemini. To jest telemetria z wszystkich użytkowników @cline, pokazująca różnice w wskaźniku błędów edycji. Zauważ, że Kimi ma około 6% wskaźnik błędów, co jest znacznie lepsze niż około 10% wskaźnik błędów Gemini. Co ciekawe, Kimi przez większość tego tygodnia przewyższył Claude 4, osiągając wskaźnik błędów poniżej 4%!
Paul Gauthier
Paul Gauthier18 lip, 19:09
Kimi K2 zdobył 59% w teście benchmarkowym kodowania polyglotów. Pełna tabela wyników:
W naszym wewnętrznym benchmarku edycji "Hard" diff dla przypadków, w których model frontier wcześniej nie poradził sobie z edycją diff (przed aktualizacjami naszego algorytmu diff), Kimi przewyższył Claude 3.5. Będzie interesujące zobaczyć wyniki naszych benchmarków "Nightmare Difficulty" w ciągu najbliższych kilku tygodni.
157,21K