Vorrei sottolineare che per i compiti del mondo reale (non benchmark), Kimi K2 supera Gemini. Questa è la telemetria di tutti gli utenti @cline, che mostra il tasso di errore nelle modifiche. Nota come Kimi abbia circa un tasso di errore del 6%, che è significativamente migliore rispetto al tasso di errore di circa il 10% di Gemini. Incredibilmente, Kimi ha persino superato Claude 4 per la maggior parte di questa settimana, raggiungendo un tasso di errore inferiore al 4%!
Paul Gauthier
Paul Gauthier18 lug, 19:09
Kimi K2 ha ottenuto il 59% nel benchmark di codifica polyglot di Aider. Classifica completa:
Nel nostro benchmark interno di editing "Hard" per i casi in cui un modello di frontiera ha precedentemente fallito un'editing diff (prima dei nostri aggiornamenti all'algoritmo diff), Kimi ha superato Claude 3.5. Sarà interessante vedere i risultati dei nostri benchmark "Nightmare Difficulty" nelle prossime settimane.
157,2K