Smart Turn v2: rilevamento audio nativo open source in 14 lingue. Nuovo checkpoint del modello VAD semantico open source, open data, open training code su @huggingface, @FAL e @pipecat_ai. - Inferenza 3 volte più veloce (12ms su un L40) - 14 lingue (13 in più rispetto alla v1, che era solo in inglese) - Nuovo set di dati sintetici `chirp_3_all` con ~163k campioni audio - 99% di accuratezza sui dati di test `human_5_all` tenuti da parte Un buon rilevamento dei turni è fondamentale per gli agenti vocali. Questo modello "comprende" sia i modelli semantici che quelli audio, e mitiga il compromesso dell'AI vocale tra la latenza indesiderata del turno e l'agente che interrompe le persone prima che abbiano finito di parlare. Gli script di addestramento per @modal_labs e l'addestramento locale sono nel repository. Vogliamo rendere il più semplice possibile contribuire o personalizzare questo modello! Ecco una demo che esegue il modello smart-turn con impostazioni predefinite, mirata a raggiungere generalmente 400ms di tempo totale di rilevamento del turno. Puoi anche regolare le impostazioni per essere più veloce. Puoi aiutare contribuendo con dati, facendo esperimenti sull'architettura o pulendo i dati open source! Continua a leggere ...
36,91K