المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل حاول أي شخص RL إعادة كتابة المطالبات لنماذج التفكير لتحسين المخرجات بشكل أكبر؟
أفترض ذلك ، يبدو الأمر واضحا جدا ، لكن إذا لم يكن الأمر كذلك ، فأنا أريد تجربته.
إذا كنت تعرف أي عمل موجود هنا ، فالرجاء lmk حتى لا أعيد القيام بشيء قام به الناس بالفعل!
أعني بهذا ما يلي:
- خذ نموذج تفكير مجمد ومدرب بالفعل (أي o4-mini عبر واجهة برمجة التطبيقات)
- أضف LLM أصغر يأخذ مطالبة ، ويعيد كتابته لتحسين كيفية أداء النموذج المجمد
- قم بتحديث أوزان LLM الأصغر ، واحتفظ ب LLM الأكبر مجمدا
الأمل هو أن يتعلم LLM الصغير "توجيه" CoT للنموذج الأكبر المجمد بشكل أفضل من الإنسان ، مما يزيد من الأداء.
ذكرني @corbtt بهذا العمل من قبل @brendanh0gan ...
بريندان ، كيف سارت الأمور؟ يبدو مشابها جدا لما أفكر فيه هنا.

3 يوليو، 08:26
تعتبر النماذج الكبيرة وكلاء رائعين ولكنها غالبا ما تكون كبيرة جدا أو مغلقة أو حساسة بحيث لا يمكن ضبطها
فكرة: تدريب نموذج صغير لصياغة سياق لنموذج كبير مجمد ، وتسجيل مخرجات النموذج الكبير ، واستخدام ذلك كمكافأة للنموذج الصغير
GRPO لضبط السياق. المزيد أدناه

17.5K
الأفضل
المُتصدِّرة
التطبيقات المفضلة