Smart Turn v2: detectare audio nativă open source în 14 limbi. Nou punct de control al open source, date deschise, cod de antrenament deschis, model VAD semantic pe @huggingface, @FAL și @pipecat_ai. - Inferență de 3 ori mai rapidă (12ms pe un L40) - 14 limbi (cu 13 mai multe decât v1, care era doar în engleză) - Nou set de date sintetice "chirp_3_all" cu ~163k mostre audio - Precizie de 99% a datelor de testare "human_5_all" Detectarea bună a virajului este esențială pentru agenții vocali. Acest model "înțelege" atât modelele semantice, cât și cele audio și atenuează compromisul AI vocal între latența nedorită a întoarcerii și agentul care întrerupe oamenii înainte ca aceștia să termine de vorbit. Scripturile de instruire atât pentru instruirea @modal_labs, cât și pentru cea locală sunt în depozit. Vrem să facem cât mai ușor posibil să contribuiți sau să personalizați acest model! Iată o demonstrație care rulează modelul de viraj inteligent cu setări implicite, care vizează atingerea în general a timpului total de detectare a virajului de 400 ms. Poți regla lucrurile pentru a fi mai rapide, de asemenea. Puteți ajuta contribuind cu date, făcând experiențe de arhitectură sau curățând date open source! Continuați să citiți...
36,92K