الشبهات اليوم تشبه الاختبارات قبل عقد من الزمان. من الواضح أنه مهم ، ولكن من غير الواضح أيضا كيف وكم تستثمر. هذه نصيحة رائعة ، لكن أهم شيء هو المحاولة. إذا كان منتجك يشتمل على الذكاء الاصطناعي ولم يكن لديك إيفال ، فأنت تبني قلعة مصنوعة من الرمل.
shyamal
shyamal‏20 مايو 2025
لا يتطلب البدء في استخدام Evals الكثير. يشبه النمط الذي رأيناه يعمل للفرق الصغيرة إلى حد كبير التطوير القائم على الاختبار المطبق على هندسة الذكاء الاصطناعي: 1 / إرساء القصص في قصص المستخدم ، وليس في المعايير المجردة: اجلس مع نظيرك في المنتج / التصميم وقم بإدراج الأشياء الملموسة التي يحتاج نموذجك إلى القيام بها للمستخدمين. "الإجابة على أسئلة مطالبة التأمين بدقة" ، "إنشاء استعلامات SQL من اللغة الطبيعية". لكل منها ، اكتب 10-20 مدخلا تمثيليا والمخرجات / السلوكيات المطلوبة. هذا هو ملف Eval الأول. 2 / أتمتة من اليوم الأول ، حتى لو كانت هشة. قاوم إغراء "مقلة العين فقط". حسنا ، حسنا ، لا تتوسع المشاعر لفترة طويلة. لف الرموز الخاصة بك في التعليمات البرمجية. يمكنك كتابة pytest بسيط يقوم بالتكرار فوق الأمثلة الخاصة بك ، ويستدعي النموذج ، ويؤكد ظهور سلاسل فرعية معينة. إنه فظ ، لكنه بداية. 3 / استخدم النموذج لتمهيد بيانات التقييم الأكثر صعوبة. الكتابة يدويا لمئات حالات الحافة مكلفة. يمكنك استخدام نماذج التفكير (O3) لإنشاء اختلافات تركيبية ("أعطني 50 سؤالا عن المطالبة تنطوي على أضرار الحريق") ثم التصفية يدويا. هذا يسرع التغطية دون التضحية بالملاءمة. 4 / لا تطارد المتصدرين ؛ كرر ما يفشل. عندما يفشل شيء ما في الإنتاج ، لا تقم فقط بإصلاح المطالبة - أضف حالة الفشل إلى مجموعة Eval الخاصة بك. بمرور الوقت ، سينمو جناحك ليعكس أوضاع الفشل الحقيقية الخاصة بك. قم بتقسيم الوحدات بشكل دوري (حسب طول الإدخال ، حسب الإعدادات المحلية ، وما إلى ذلك) لمعرفة ما إذا كنت تتراجع في مقاطع معينة. 5 / طور مقاييسك مع نضوج منتجك. أثناء التوسع ، ستحتاج إلى تسجيل المزيد من الدرجات الدقيقة (التشابه الدلالي ، والتقييمات البشرية ، وتتبع التكلفة / زمن الوصول قم ببناء خطافات في حزام EVAL الخاص بك لتسجيلها وتوجيهها بمرور الوقت. أداة واجهة المستخدم الخاصة بك لجمع التعليقات الضمنية (هل نقر المستخدم على "الإبهام لأعلى"؟) وإدخالها مرة أخرى في الإيفالات غير المتصلة بالإنترنت. 6 / اجعل evals مرئية. ضع لوحة معلومات بسيطة أمام الفريق وأصحاب المصلحة تعرض معدلات نجاح EVAL والتكلفة وزمن الوصول. استخدمه في الوقوف. هذا يخلق المساءلة ويساعد الأشخاص غير ML على المشاركة في مناقشات المقايضة. أخيرا ، تعامل مع Evals كقطعة أثرية هندسية أساسية. قم بتعيين الملكية ، وراجعها في مراجعة التعليمات البرمجية ، واحتفل عند إضافة حالة صعبة جديدة. سيؤتي الانضباط أرباحا مركبة كلما قمت بالتوسع.
‏‎1.12‏K