Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: open source, native audio turn detectie in 14 talen.
Nieuwe checkpoint van de open source, open data, open training code, semantisch VAD-model op @huggingface, @FAL, en @pipecat_ai.
- 3x snellere inferentie (12ms op een L40)
- 14 talen (13 meer dan v1, dat alleen Engels was)
- Nieuwe synthetische dataset `chirp_3_all` met ~163k audio samples
- 99% nauwkeurigheid op de vastgehouden `human_5_all` testdata
Goede turn detectie is cruciaal voor spraakagenten. Dit model "begrijpt" zowel semantische als audio patronen, en vermindert de spraak AI trade-off tussen ongewenste turn latentie en het onderbreken van mensen voordat ze klaar zijn met spreken.
Trainingsscripts voor zowel @modal_labs als lokale training zijn in de repo. We willen het zo gemakkelijk mogelijk maken om bij te dragen aan of dit model aan te passen!
Hier is een demo die het smart-turn model draait met standaardinstellingen, gericht op een totale turn detectietijd van ongeveer 400ms. Je kunt dingen ook sneller afstemmen.
Je kunt helpen door data bij te dragen, architectuurexperimenten uit te voeren, of open source data schoon te maken! Blijf lezen ...
36,92K
Boven
Positie
Favorieten