🚨 هل تعلم أن الفانيليا SGD ذات الدفعة الصغيرة بدون زخم (أي أول محسن تتعرف عليه في مقدمة ML) هو تقريبا بنفس سرعة AdamW للتدريب المسبق LLM على أساس كل FLOP؟ 📜 1/ن
يعتقد أن تدريب LLM على دفعة صغيرة يكون بطيئا لكل FLOP ، مما يحفز تراكم التدرج لمحاكاة دفعات أكبر ، حتى في الجولات الأكاديمية على نطاق صغير. نوضح أن القاعدة البسيطة لقياس المعلمات الفائقة لآدم تسمح بتدريب فعال لكل FLOP وصولا إلى حجم الدفعة 1. 4 / ن
نلاحظ أن التدريب على الدفعات الصغيرة قوي للغاية لتحسين المعلمات الفائقة مثل معدل التعلم والزخم. هذا يعني أنه في ميزانية ضبط المعلمات الفائقة الثابتة ، ستجد معلمات فائقة أفضل في نظام الدفعات الصغيرة. 6 / ن
‏‎341.21‏K