المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تنبؤات سريعة.
2025: نموذج معلمة 100B + تم تدريبه على d-Networks.
2026: تم تدريب أول نموذج 50B + * متعدد الوسائط * على وحدات معالجة الرسومات المتطوعة.
2027-8: كل شيء آخر متساو ، تم إعادة إنتاج نموذج تنافسي كثيف GPT-3 175B.
2030+: تشغيل لامركزي "حدودي" حقيقي ، 1T params +.

10 يونيو 2025
أفكار / تنبؤات في التدريب اللامركزي على الذكاء الاصطناعي ، 2025.
1. شيء واحد يجب قوله هو أننا بالتأكيد في عالم مختلف مع تدريب الذكاء الاصطناعي اللامركزي عما كنا عليه قبل 18 شهرا. في ذلك الوقت ، كان التدريب اللامركزي مستحيلا وهو الآن في السوق وهو مجال.
2. لا تخطئ ، الهدف النهائي من d-training هو تدريب النماذج التنافسية والحدودية على d-Networks. على هذا النحو ، نحن في بداية رحلتنا التنافسية ، لكننا نتحرك بسرعة.
3. لقد تم الإجماع الآن على أنه يمكننا التدريب المسبق والتدريب اللاحق لنماذج المعلمات التي تبلغ ملياراتها (معظمها من LLMs ، ومعظمها من بنى المحولات) على d-Networks. تصل الحالة الحالية للفن إلى ~ 100B ، وينتهي الجزء العلوي منها في الأفق ولكن لم يتم عرضه.
4. لقد تم إجماع الآن على أنه يمكننا تدريب نماذج معلمات <10B على شبكات d بشكل عملي جدا. كانت هناك أيضا دراسات حالة محددة (بشكل أساسي من @gensynai @PrimeIntellect @NousResearch) حيث تم تدريب أو يتم تدريب المعلمات 10B و 32B و 40B. يعمل سرب ما بعد التدريب في @gensynai على نماذج معلمات تصل إلى 72B.
5. لقد أبطل الابتكار @PluralisHQ الآن "استحالة" التدريب المسبق القابل للتطوير على الشبكات d عن طريق إزالة عنق الزجاجة لعدم كفاءة الاتصالات. ومع ذلك ، تظل FLOPs الأولية والموثوقية وإمكانية التحقق من الاختناقات لهذه الأنواع من الشبكات - وهي مشاكل قابلة للحل للغاية ولكنها ستستغرق بعض الوقت لحلها تقنيا. مع تعلم البروتوكول من Pluralis كما هو ، أعتقد أننا نصل إلى نماذج ~ 100B في إطار زمني من 6 إلى 12 شهرا.
6. كيف ننتقل من نماذج المعلمات 100B إلى 300B؟ أعتقد أننا بحاجة إلى إيجاد طرق لتقسيم المعلمات بشكل فعال وسلس والحفاظ على ذاكرة الجهاز الفردية منخفضة نسبيا (على سبيل المثال ، ذاكرة <32 جيجابايت لكل جهاز). أعتقد أننا بحاجة إلى الوصول إلى 20 EFlops في الشبكة. هذا يعني شيئا مثل 10-20 ألف جهاز استهلاكي يعمل لمدة 4-6 أسابيع في التدريب.
بشكل عام ، من المتوقع أن يكون d-training مساحة مثيرة للغاية. يتم بالفعل النظر في بعض ابتكاراتها لتطبيقات الذكاء الاصطناعي الواسعة.
3.68K
الأفضل
المُتصدِّرة
التطبيقات المفضلة