المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: مصدر مفتوح ، كشف الدوران الصوتي الأصلي ب 14 لغة.
نقطة تفتيش جديدة للمصدر المفتوح ، والبيانات المفتوحة ، ورمز التدريب المفتوح ، ونموذج VAD الدلالي على @huggingface و @FAL و @pipecat_ai.
- استدلال أسرع 3 مرات (12 مللي ثانية على L40)
- 14 لغة (13 أكثر من الإصدار 1 ، والذي كان باللغة الإنجليزية فقط)
- مجموعة بيانات تركيبية جديدة "chirp_3_all" مع ~ 163 ألف عينة صوتية
- دقة 99٪ في بيانات الاختبار "human_5_all" المعلقة
يعد اكتشاف الأدوار الجيد أمرا بالغ الأهمية للوكلاء الصوتيين. هذا النموذج "يفهم" كل من الأنماط الدلالية والصوتية ، ويخفف من مقايضة الذكاء الاصطناعي الصوتي بين زمن انتقال الدوران غير المرغوب فيه مقابل مقاطعة الوكيل للأشخاص قبل الانتهاء من التحدث.
توجد نصوص التدريب لكل من التدريب @modal_labs والمحلي في الريبو. نريد أن نجعل من السهل قدر الإمكان المساهمة في هذا النموذج أو تخصيصه!
فيما يلي عرض توضيحي لتشغيل نموذج الدوران الذكي مع الإعدادات الافتراضية ، والذي يهدف بشكل عام إلى الوصول إلى 400 مللي ثانية إجمالي وقت اكتشاف الدوران. يمكنك ضبط الأشياء لتكون أسرع أيضا.
يمكنك المساعدة من خلال المساهمة بالبيانات أو القيام بتجارب الهندسة المعمارية أو تنظيف البيانات مفتوحة المصدر! استمر في القراءة ...
36.91K
الأفضل
المُتصدِّرة
التطبيقات المفضلة