Хочу зазначити, що для реальних завдань (а не бенчмарків) Kimi K2 перевершує Gemini. Це телеметрія для всіх @cline користувачів, що показує частоту невдач редагування різниці. Зверніть увагу, що Kimi має близько 6% відмов, що значно краще, ніж показник помилок ~ 10% у Gemini. Примітно, що Кімі навіть перевершив Claude 4 протягом більшої частини цього тижня, досягнувши показника відмов нижче 4%!
Paul Gauthier
Paul Gauthier18 лип., 19:09
Kimi K2 набрав 59% за тестом кодування aider polyglot. Повна таблиця лідерів:
У нашому внутрішньому "Жорсткому" тесті редагування різниці для випадків, коли модель frontier раніше не вдавалася редагувати різницю (до оновлення нашого алгоритму різниці), Kimi перевершив Claude 3.5. Буде цікаво подивитися на результати наших бенчмарків "Nightmare Difficulty" в найближчі кілька тижнів.
157,2K