المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
كلود كود @AnthropicAI 🤖
طباخ متعطش ، شخص ثلجي مخصص ، متحمس لليوغا
Claude Code ، أصلي الآن على Windows.
مثل هذه الميزات ليست براقة ، لكنها تجعل Claude Code * هكذا * قويا. نريدها أن تعمل في كل مكان تفعله.

Alex Albert15 يوليو، 03:07
لدينا تحديث كبير آخر ل Claude Code اليوم: إنه متاح الآن أصلا لنظام التشغيل Windows.

13.02K
"في حين أن المنافسة تبدو وكأنها قوة جبارة، فإن التعاون هو القوة الوحيدة الأكثر قوة."
@tomocchino ❤️

Ryan Vogel13 يوليو، 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10.19K
Claude Code قابل للتخصيص للغاية ، ولكن يصعب اكتشاف الميزات. ينام الكثير من الناس على قوة الأوامر المخصصة. الآن يمكنهم حتى تضمين إخراج bash
ألق نظرة أخرى إذا كنت لا تستخدم هذه الميزات بالفعل.

Alex Albert2 يوليو، 00:19
للتذكير، تتيح لك أوامر الشرطة المائلة تخزين المطالبات المخصصة كملفات Markdown واستدعاؤها باستخدام /your-command.
مع هذا التحديث، يمكنك الآن:
- تنفيذ أوامر bash من أوامر الشرطة المائلة
- @ ذكر الملفات للسياق
- تمكين التفكير الموسع باستخدام الكلمات الرئيسية داخل الأوامر

9.98K
الشبهات اليوم تشبه الاختبارات قبل عقد من الزمان. من الواضح أنه مهم ، ولكن من غير الواضح أيضا كيف وكم تستثمر.
هذه نصيحة رائعة ، لكن أهم شيء هو المحاولة. إذا كان منتجك يشتمل على الذكاء الاصطناعي ولم يكن لديك إيفال ، فأنت تبني قلعة مصنوعة من الرمل.

shyamal20 مايو 2025
لا يتطلب البدء في استخدام Evals الكثير. يشبه النمط الذي رأيناه يعمل للفرق الصغيرة إلى حد كبير التطوير القائم على الاختبار المطبق على هندسة الذكاء الاصطناعي:
1 / إرساء القصص في قصص المستخدم ، وليس في المعايير المجردة: اجلس مع نظيرك في المنتج / التصميم وقم بإدراج الأشياء الملموسة التي يحتاج نموذجك إلى القيام بها للمستخدمين. "الإجابة على أسئلة مطالبة التأمين بدقة" ، "إنشاء استعلامات SQL من اللغة الطبيعية". لكل منها ، اكتب 10-20 مدخلا تمثيليا والمخرجات / السلوكيات المطلوبة. هذا هو ملف Eval الأول.
2 / أتمتة من اليوم الأول ، حتى لو كانت هشة. قاوم إغراء "مقلة العين فقط". حسنا ، حسنا ، لا تتوسع المشاعر لفترة طويلة. لف الرموز الخاصة بك في التعليمات البرمجية. يمكنك كتابة pytest بسيط يقوم بالتكرار فوق الأمثلة الخاصة بك ، ويستدعي النموذج ، ويؤكد ظهور سلاسل فرعية معينة. إنه فظ ، لكنه بداية.
3 / استخدم النموذج لتمهيد بيانات التقييم الأكثر صعوبة. الكتابة يدويا لمئات حالات الحافة مكلفة. يمكنك استخدام نماذج التفكير (O3) لإنشاء اختلافات تركيبية ("أعطني 50 سؤالا عن المطالبة تنطوي على أضرار الحريق") ثم التصفية يدويا. هذا يسرع التغطية دون التضحية بالملاءمة.
4 / لا تطارد المتصدرين ؛ كرر ما يفشل. عندما يفشل شيء ما في الإنتاج ، لا تقم فقط بإصلاح المطالبة - أضف حالة الفشل إلى مجموعة Eval الخاصة بك. بمرور الوقت ، سينمو جناحك ليعكس أوضاع الفشل الحقيقية الخاصة بك. قم بتقسيم الوحدات بشكل دوري (حسب طول الإدخال ، حسب الإعدادات المحلية ، وما إلى ذلك) لمعرفة ما إذا كنت تتراجع في مقاطع معينة.
5 / طور مقاييسك مع نضوج منتجك. أثناء التوسع ، ستحتاج إلى تسجيل المزيد من الدرجات الدقيقة (التشابه الدلالي ، والتقييمات البشرية ، وتتبع التكلفة / زمن الوصول قم ببناء خطافات في حزام EVAL الخاص بك لتسجيلها وتوجيهها بمرور الوقت. أداة واجهة المستخدم الخاصة بك لجمع التعليقات الضمنية (هل نقر المستخدم على "الإبهام لأعلى"؟) وإدخالها مرة أخرى في الإيفالات غير المتصلة بالإنترنت.
6 / اجعل evals مرئية. ضع لوحة معلومات بسيطة أمام الفريق وأصحاب المصلحة تعرض معدلات نجاح EVAL والتكلفة وزمن الوصول. استخدمه في الوقوف. هذا يخلق المساءلة ويساعد الأشخاص غير ML على المشاركة في مناقشات المقايضة.
أخيرا ، تعامل مع Evals كقطعة أثرية هندسية أساسية. قم بتعيين الملكية ، وراجعها في مراجعة التعليمات البرمجية ، واحتفل عند إضافة حالة صعبة جديدة. سيؤتي الانضباط أرباحا مركبة كلما قمت بالتوسع.
1.14K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
رائج على السلسة
رائج على منصة X
أهم عمليات التمويل الأخيرة
الأبرز