Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gostaria de salientar que, para tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini.
Esta é a telemetria de todos os usuários @cline, mostrando a taxa de falhas de edição. Note como o Kimi tem cerca de 6% de taxa de falha, o que é significativamente melhor do que a taxa de erro de ~ 10% do Gemini.
Notavelmente, o Kimi até superou o Claude 4 na maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!.

No nosso benchmark interno de edição de "Hard" diff para casos em que um modelo de fronteira anteriormente falhou numa edição de diff (antes das nossas atualizações do algoritmo de diff), Kimi superou Claude 3.5.
Vai ser interessante ver os resultados dos nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.

157,21K
Top
Classificação
Favoritos