Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi muốn chỉ ra rằng đối với các nhiệm vụ thực tế (không phải benchmark), Kimi K2 vượt trội hơn Gemini.
Đây là dữ liệu telemetry từ tất cả người dùng @cline, cho thấy tỷ lệ lỗi chỉnh sửa khác nhau. Lưu ý rằng Kimi có khoảng 6% tỷ lệ lỗi, điều này tốt hơn đáng kể so với tỷ lệ lỗi ~ 10% của Gemini.
Đáng chú ý, Kimi thậm chí còn vượt qua Claude 4 trong hầu hết tuần này, đạt được tỷ lệ lỗi dưới 4%!.

Trong bài kiểm tra chỉnh sửa "Hard" diff nội bộ của chúng tôi cho các trường hợp mà một mô hình tiên phong trước đó đã thất bại trong việc chỉnh sửa diff (trước khi cập nhật thuật toán diff của chúng tôi), Kimi đã vượt qua Claude 3.5.
Sẽ rất thú vị khi xem kết quả từ các bài kiểm tra "Nightmare Difficulty" trong vài tuần tới.

159,03K
Hàng đầu
Thứ hạng
Yêu thích