هل حاول أي شخص RL إعادة كتابة المطالبات لنماذج التفكير لتحسين المخرجات بشكل أكبر؟ أفترض ذلك ، يبدو الأمر واضحا جدا ، لكن إذا لم يكن الأمر كذلك ، فأنا أريد تجربته. إذا كنت تعرف أي عمل موجود هنا ، فالرجاء lmk حتى لا أعيد القيام بشيء قام به الناس بالفعل!
أعني بهذا ما يلي: - خذ نموذج تفكير مجمد ومدرب بالفعل (أي o4-mini عبر واجهة برمجة التطبيقات) - أضف LLM أصغر يأخذ مطالبة ، ويعيد كتابته لتحسين كيفية أداء النموذج المجمد - قم بتحديث أوزان LLM الأصغر ، واحتفظ ب LLM الأكبر مجمدا الأمل هو أن يتعلم LLM الصغير "توجيه" CoT للنموذج الأكبر المجمد بشكل أفضل من الإنسان ، مما يزيد من الأداء.
ذكرني @corbtt بهذا العمل من قبل @brendanh0gan ... بريندان ، كيف سارت الأمور؟ يبدو مشابها جدا لما أفكر فيه هنا.
Brendan Hogan
Brendan Hogan‏3 يوليو، 08:26
تعتبر النماذج الكبيرة وكلاء رائعين ولكنها غالبا ما تكون كبيرة جدا أو مغلقة أو حساسة بحيث لا يمكن ضبطها فكرة: تدريب نموذج صغير لصياغة سياق لنموذج كبير مجمد ، وتسجيل مخرجات النموذج الكبير ، واستخدام ذلك كمكافأة للنموذج الصغير GRPO لضبط السياق. المزيد أدناه
‏‎17.5‏K