إليكم ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث الأعمال في عالم LLMs وتقاطع الخصوصية الذكاء الاصطناعي والبروتوكولات اللامركزية. نقدم هذا الأسبوع نسخة ICML ، تغطي بعض الأوراق العديدة التي أحببناها في المؤتمر.
رمي النرد وانظر قبل أن تقفز: تجاوز الحدود الإبداعية للتنبؤ بالرمز المميز التالي. في هذه الورقة ، يستكشفون الحدود الإبداعية للتنبؤ بالرمز المميز التالي في نماذج اللغة الكبيرة باستخدام المهام الخوارزمية للرسم البياني المفتوح "الحد الأدنى".
ينظرون إليها من خلال عدستين إبداعيتين: التركيبية والاستكشافية. النماذج المدربة على الرمز التالي هي إلى حد كبير أقل إبداعا وتحفظ أكثر بكثير من النماذج متعددة الرموز المميزة. كما يستكشفون تكييف البذور كطريقة لإنتاج تنوع ذي مغزى في أجيال LLM.
rStar-Math: يمكن لطلاب القانون الصغار إتقان التفكير الرياضي من خلال التفكير العميق المتطور ذاتيا تستخدم هذه الورقة ضبطا دقيقا ذاتي التطور لتحسين جودة البيانات وتحسين نموذج مكافأة العملية تدريجيا باستخدام MCTS وLMs الصغيرة.
يستخدم عملية التطور الذاتي التي تبدأ صغيرا مع حلول تم التحقق منها وتم إنشاؤها وتدريب نماذج أفضل بشكل متكرر. يتم تجميع البيانات باستخدام سلسلة فكرية معززة بالتعليمات البرمجية. يحسن Qwen2.5-Math-7B من 58.8٪ إلى 90.0٪ و Phi3-mini-3.8B من 41.4٪ إلى 86.4٪.
تدريب وكيل فضولي بشكل عام تقدم هذه الورقة الفلفل الحلو ، وهي طريقة لتدريب LLMs ليصبحوا صانعي قرار عامين يمكنهم حل المهام الجديدة بدون طلقة. يتدربون على مجموعات عمل متنوعة لتعليم جمع المعلومات واتخاذ القرار.
يركز RL for LLMs على التفاعلات أحادية المنعطف ، لذلك غالبا ما يؤدون بشكل غير مثالي في اتخاذ القرارات المتسلسلة مع تفاعلات متعددة الأدوار على مدى آفاق زمنية مختلفة. يولد الفلفل الحلو مسارات متنوعة مع أخذ عينات من درجات الحرارة العالية ويتعلم من المسارات الناجحة.
كيف تحصل اللغة الكبيرة على قوتها (القوانين) تدرس هذه الورقة مفهوم قوانين القوة في LLMs وتوفر إطارا رياضيا لفهم كيف ولماذا يتحسن أداء نموذج اللغة مع زيادة حساب الاستدلال.
CVE-Bench: معيار لقدرة وكلاء الذكاء الاصطناعي على الاستغلال يقدم هذا العمل معيارا للأمن السيبراني في العالم الحقيقي من خلال إنشاء وضع الحماية المنهجي أولا. لكل ثغرة أمنية ، يقومون بإنشاء حاويات مصممة لاستضافة تطبيق به ثغرات أمنية مكشوفة.
ثم يقدمون CVE-Bench ، وهو أول معيار للأمن السيبراني في العالم الحقيقي لوكلاء LLM. في CVE-Bench ، يجمعون 40 من الثغرات الأمنية الشائعة (CVEs) في قاعدة البيانات الوطنية للثغرات الأمنية.
بعض الأوراق الأخرى التي أحببناها: - يحتاج وكلاء الذكاء الاصطناعي إلى تفويض مصادق عليه - LLM-SRBench: معيار لاكتشاف المعادلات العلمية مع LLMs - يلتقي التعلم الآلي بالتوافقات الجبرية - تحجيم حساب وقت الاختبار بدون التحقق أو RL دون المستوى الأمثل
تابعنا @ritualdigest لمعرفة المزيد عن كل ما يتعلق بأبحاث crypto x الذكاء الاصطناعي ، @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎4.08‏K