Smart Turn v2: open source, native audio turn detectie in 14 talen. Nieuwe checkpoint van de open source, open data, open training code, semantisch VAD-model op @huggingface, @FAL, en @pipecat_ai. - 3x snellere inferentie (12ms op een L40) - 14 talen (13 meer dan v1, dat alleen Engels was) - Nieuwe synthetische dataset `chirp_3_all` met ~163k audio samples - 99% nauwkeurigheid op de vastgehouden `human_5_all` testdata Goede turn detectie is cruciaal voor spraakagenten. Dit model "begrijpt" zowel semantische als audio patronen, en vermindert de spraak AI trade-off tussen ongewenste turn latentie en het onderbreken van mensen voordat ze klaar zijn met spreken. Trainingsscripts voor zowel @modal_labs als lokale training zijn in de repo. We willen het zo gemakkelijk mogelijk maken om bij te dragen aan of dit model aan te passen! Hier is een demo die het smart-turn model draait met standaardinstellingen, gericht op een totale turn detectietijd van ongeveer 400ms. Je kunt dingen ook sneller afstemmen. Je kunt helpen door data bij te dragen, architectuurexperimenten uit te voeren, of open source data schoon te maken! Blijf lezen ...
36,92K