Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Хочу зазначити, що для реальних завдань (а не бенчмарків) Kimi K2 перевершує Gemini. Це телеметрія для всіх @cline користувачів, що показує частоту невдач редагування різниці. Зверніть увагу, що Kimi має близько 6% відмов, що значно краще, ніж показник помилок ~ 10% у Gemini. Примітно, що Кімі навіть перевершив Claude 4 протягом більшої частини цього тижня, досягнувши показника відмов нижче 4%!

У нашому внутрішньому "Жорсткому" тесті редагування різниці для випадків, коли модель frontier раніше не вдавалася редагувати різницю (до оновлення нашого алгоритму різниці), Kimi перевершив Claude 3.5. Буде цікаво подивитися на результати наших бенчмарків "Nightmare Difficulty" в найближчі кілька тижнів.

157,2K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги