Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gostaria de salientar que, para as tarefas do mundo real (não benchmarks), o Kimi K2 supera o Gemini.
Esta é a telemetria em todos os usuários @cline, mostrando a taxa de falha de edição de diferença. Observe como Kimi tem uma taxa de falha de cerca de 6%, o que é significativamente melhor do que a taxa de erro de ~ 10% de Gemini.
Notavelmente, Kimi até superou Claude 4 durante a maior parte desta semana, alcançando uma taxa de falha abaixo de 4%!


18 de jul., 19:09
Kimi K2 marcou 59% no benchmark de codificação poliglota aider.
Tabela de classificação completa:

Em nosso benchmark interno de edição de diff "Hard" para casos em que um modelo de fronteira falhou anteriormente em uma edição de diff (antes de nossas atualizações de algoritmo de diff), Kimi ultrapassou Claude 3.5.
Será interessante ver os resultados de nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.

157,22K
Melhores
Classificação
Favoritos