Я хотел бы отметить, что для реальных задач (не бенчмарков) Kimi K2 превосходит Gemini. Это телеметрия по всем пользователям @cline, показывающая разницу в уровне ошибок редактирования. Обратите внимание, что у Kimi примерно 6% уровень ошибок, что значительно лучше, чем у Gemini с ~ 10%. Удивительно, но Kimi даже обошел Claude 4 на протяжении большей части этой недели, достигнув уровня ошибок менее 4%!.
Paul Gauthier
Paul Gauthier18 июл., 19:09
Kimi K2 набрал 59% на бенчмарке кодирования aider polyglot. Полный рейтинг:
В нашем внутреннем бенчмарке редактирования "Hard" diff для случаев, когда модель frontier ранее не справлялась с редактированием diff (до обновлений нашего алгоритма diff), Кими превзошла Claude 3.5. Будет интересно увидеть результаты наших бенчмарков "Nightmare Difficulty" в ближайшие несколько недель.
157,21K