DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Vorrei sottolineare che per i compiti del mondo reale (non benchmark), Kimi K2 supera Gemini. Questa è la telemetria di tutti gli utenti @cline, che mostra il tasso di errore nelle modifiche. Nota come Kimi abbia circa un tasso di errore del 6%, che è significativamente migliore rispetto al tasso di errore di circa il 10% di Gemini. Incredibilmente, Kimi ha persino superato Claude 4 per la maggior parte di questa settimana, raggiungendo un tasso di errore inferiore al 4%!

Nel nostro benchmark interno di editing "Hard" per i casi in cui un modello di frontiera ha precedentemente fallito un'editing diff (prima dei nostri aggiornamenti all'algoritmo diff), Kimi ha superato Claude 3.5. Sarà interessante vedere i risultati dei nostri benchmark "Nightmare Difficulty" nelle prossime settimane.

157,2K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari