Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je tiens à souligner que pour les tâches du monde réel (pas les benchmarks), Kimi K2 surpasse Gemini.
Ceci est une télémétrie de tous les utilisateurs de @cline, montrant le taux d'échec des modifications. Remarquez que Kimi a un taux d'échec d'environ 6 %, ce qui est significativement mieux que le taux d'erreur d'environ 10 % de Gemini.
Remarquablement, Kimi a même surpassé Claude 4 pendant la majeure partie de cette semaine, atteignant un taux d'échec inférieur à 4 % !

Dans notre benchmark interne d'édition de diff "Hard" pour les cas où un modèle de pointe a précédemment échoué à une édition de diff (avant nos mises à jour de l'algorithme de diff), Kimi a surpassé Claude 3.5.
Il sera intéressant de voir les résultats de nos benchmarks "Nightmare Difficulty" dans les prochaines semaines.

157,21K
Meilleurs
Classement
Favoris