Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: rilevamento audio nativo open source in 14 lingue.
Nuovo checkpoint del modello VAD semantico open source, open data, open training code su @huggingface, @FAL e @pipecat_ai.
- Inferenza 3 volte più veloce (12ms su un L40)
- 14 lingue (13 in più rispetto alla v1, che era solo in inglese)
- Nuovo set di dati sintetici `chirp_3_all` con ~163k campioni audio
- 99% di accuratezza sui dati di test `human_5_all` tenuti da parte
Un buon rilevamento dei turni è fondamentale per gli agenti vocali. Questo modello "comprende" sia i modelli semantici che quelli audio, e mitiga il compromesso dell'AI vocale tra la latenza indesiderata del turno e l'agente che interrompe le persone prima che abbiano finito di parlare.
Gli script di addestramento per @modal_labs e l'addestramento locale sono nel repository. Vogliamo rendere il più semplice possibile contribuire o personalizzare questo modello!
Ecco una demo che esegue il modello smart-turn con impostazioni predefinite, mirata a raggiungere generalmente 400ms di tempo totale di rilevamento del turno. Puoi anche regolare le impostazioni per essere più veloce.
Puoi aiutare contribuendo con dati, facendo esperimenti sull'architettura o pulendo i dati open source! Continua a leggere ...
36,91K
Principali
Ranking
Preferiti