Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хочу зазначити, що для реальних завдань (а не бенчмарків) Kimi K2 перевершує Gemini.
Це телеметрія для всіх @cline користувачів, що показує частоту невдач редагування різниці. Зверніть увагу, що Kimi має близько 6% відмов, що значно краще, ніж показник помилок ~ 10% у Gemini.
Примітно, що Кімі навіть перевершив Claude 4 протягом більшої частини цього тижня, досягнувши показника відмов нижче 4%!

У нашому внутрішньому "Жорсткому" тесті редагування різниці для випадків, коли модель frontier раніше не вдавалася редагувати різницю (до оновлення нашого алгоритму різниці), Kimi перевершив Claude 3.5.
Буде цікаво подивитися на результати наших бенчмарків "Nightmare Difficulty" в найближчі кілька тижнів.

157,2K
Найкращі
Рейтинг
Вибране