Gostaria de salientar que, para as tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini. Esta é a telemetria em todos os usuários @cline, mostrando a taxa de falha de edição de diferença. Observe como Kimi tem uma taxa de falha de cerca de 6%, o que é significativamente melhor do que a taxa de erro de ~ 10% de Gemini. Notavelmente, Kimi até superou Claude 4 durante a maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!
Paul Gauthier
Paul Gauthier18 de jul., 19:09
Kimi K2 marcou 59% no benchmark de codificação poliglota aider. Tabela de classificação completa:
Em nosso benchmark interno de edição de diff "Hard" para casos em que um modelo de fronteira falhou anteriormente em uma edição de diff (antes de nossas atualizações de algoritmo de diff), Kimi ultrapassou Claude 3.5. Será interessante ver os resultados de nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.
157,22K