Inb4 نبدأ ide ترميز للذكاء الاصطناعي حتى نتمكن من الحصول على بيانات جيدة
pash
pash‏19 يوليو، 09:58
أود أن أشير إلى أنه بالنسبة لمهام العالم الحقيقي (وليس المعايير) ، يتفوق Kimi K2 على الجوزاء. هذا هو القياس عن بعد عبر جميع مستخدمي @cline ، ويظهر معدل فشل التحرير المختلف. لاحظ كيف أن معدل فشل Kimi يبلغ حوالي 6٪ ، وهو أفضل بكثير من معدل خطأ الجوزاء ~ 10٪. من اللافت للنظر أن كيمي تجاوز كلود 4 لمعظم هذا الأسبوع ، محققا معدل فشل أقل من 4٪!
‏‎6.71‏K