Gostaria de salientar que, para tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini. Esta é a telemetria de todos os usuários @cline, mostrando a taxa de falhas de edição. Note como o Kimi tem cerca de 6% de taxa de falha, o que é significativamente melhor do que a taxa de erro de ~ 10% do Gemini. Notavelmente, o Kimi até superou o Claude 4 na maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!.
Paul Gauthier
Paul Gauthier18/07, 19:09
Kimi K2 obteve 59% no benchmark de codificação polyglot aider. Classificação completa:
No nosso benchmark interno de edição de "Hard" diff para casos em que um modelo de fronteira anteriormente falhou numa edição de diff (antes das nossas atualizações do algoritmo de diff), Kimi superou Claude 3.5. Vai ser interessante ver os resultados dos nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.
157,21K