Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Gostaria de salientar que, para tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini. Esta é a telemetria de todos os usuários @cline, mostrando a taxa de falhas de edição. Note como o Kimi tem cerca de 6% de taxa de falha, o que é significativamente melhor do que a taxa de erro de ~ 10% do Gemini. Notavelmente, o Kimi até superou o Claude 4 na maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!.

No nosso benchmark interno de edição de "Hard" diff para casos em que um modelo de fronteira anteriormente falhou numa edição de diff (antes das nossas atualizações do algoritmo de diff), Kimi superou Claude 3.5. Vai ser interessante ver os resultados dos nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.

157,21K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável