Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2 : détection de tournant audio native open source dans 14 langues.
Nouveau point de contrôle du code open source, des données ouvertes et de l'entraînement ouvert, modèle VAD sémantique sur @huggingface, @FAL et @pipecat_ai.
- Inférence 3x plus rapide (12ms sur un L40)
- 14 langues (13 de plus que v1, qui était uniquement en anglais)
- Nouveau jeu de données synthétiques `chirp_3_all` avec ~163k échantillons audio
- 99% de précision sur les données de test `human_5_all` retenues
Une bonne détection de tournant est essentielle pour les agents vocaux. Ce modèle "comprend" à la fois les motifs sémantiques et audio, et atténue le compromis de l'IA vocale entre la latence de tournant indésirable et l'agent qui interrompt les gens avant qu'ils aient fini de parler.
Les scripts d'entraînement pour @modal_labs et l'entraînement local sont dans le dépôt. Nous voulons rendre aussi facile que possible de contribuer ou de personnaliser ce modèle !
Voici une démo exécutant le modèle smart-turn avec les paramètres par défaut, visant à atteindre généralement 400ms de temps total de détection de tournant. Vous pouvez également ajuster les choses pour être plus rapide.
Vous pouvez aider en contribuant des données, en faisant des expériences d'architecture ou en nettoyant des données open source ! Continuez à lire ...
36,91K
Meilleurs
Classement
Favoris