Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: detectare audio nativă open source în 14 limbi.
Nou punct de control al open source, date deschise, cod de antrenament deschis, model VAD semantic pe @huggingface, @FAL și @pipecat_ai.
- Inferență de 3 ori mai rapidă (12ms pe un L40)
- 14 limbi (cu 13 mai multe decât v1, care era doar în engleză)
- Nou set de date sintetice "chirp_3_all" cu ~163k mostre audio
- Precizie de 99% a datelor de testare "human_5_all"
Detectarea bună a virajului este esențială pentru agenții vocali. Acest model "înțelege" atât modelele semantice, cât și cele audio și atenuează compromisul AI vocal între latența nedorită a întoarcerii și agentul care întrerupe oamenii înainte ca aceștia să termine de vorbit.
Scripturile de instruire atât pentru instruirea @modal_labs, cât și pentru cea locală sunt în depozit. Vrem să facem cât mai ușor posibil să contribuiți sau să personalizați acest model!
Iată o demonstrație care rulează modelul de viraj inteligent cu setări implicite, care vizează atingerea în general a timpului total de detectare a virajului de 400 ms. Poți regla lucrurile pentru a fi mai rapide, de asemenea.
Puteți ajuta contribuind cu date, făcând experiențe de arhitectură sau curățând date open source! Continuați să citiți...
36,92K
Limită superioară
Clasament
Favorite