المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 هل تعلم أن الفانيليا SGD ذات الدفعة الصغيرة بدون زخم (أي أول محسن تتعرف عليه في مقدمة ML) هو تقريبا بنفس سرعة AdamW للتدريب المسبق LLM على أساس كل FLOP؟ 📜 1/ن

يعتقد أن تدريب LLM على دفعة صغيرة يكون بطيئا لكل FLOP ، مما يحفز تراكم التدرج لمحاكاة دفعات أكبر ، حتى في الجولات الأكاديمية على نطاق صغير. نوضح أن القاعدة البسيطة لقياس المعلمات الفائقة لآدم تسمح بتدريب فعال لكل FLOP وصولا إلى حجم الدفعة 1. 4 / ن

نلاحظ أن التدريب على الدفعات الصغيرة قوي للغاية لتحسين المعلمات الفائقة مثل معدل التعلم والزخم. هذا يعني أنه في ميزانية ضبط المعلمات الفائقة الثابتة ، ستجد معلمات فائقة أفضل في نظام الدفعات الصغيرة. 6 / ن

341.21K
الأفضل
المُتصدِّرة
التطبيقات المفضلة