DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Gostaria de salientar que, para as tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini. Esta é a telemetria em todos os usuários @cline, mostrando a taxa de falha de edição de diferença. Observe como Kimi tem uma taxa de falha de cerca de 6%, o que é significativamente melhor do que a taxa de erro de ~ 10% de Gemini. Notavelmente, Kimi até superou Claude 4 durante a maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!

Em nosso benchmark interno de edição de diff "Hard" para casos em que um modelo de fronteira falhou anteriormente em uma edição de diff (antes de nossas atualizações de algoritmo de diff), Kimi ultrapassou Claude 3.5. Será interessante ver os resultados de nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.

157,22K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável