Smart Turn v2: Open Source, native Audio-Drehungserkennung in 14 Sprachen. Neuer Checkpoint des Open Source, Open Data, Open Training Code, semantischen VAD-Modells auf @huggingface, @FAL und @pipecat_ai. - 3x schnellere Inferenz (12ms auf einem L40) - 14 Sprachen (13 mehr als v1, das nur Englisch war) - Neuer synthetischer Datensatz `chirp_3_all` mit ~163k Audio-Proben - 99% Genauigkeit bei den zurückgehaltenen `human_5_all` Testdaten Eine gute Drehungserkennung ist entscheidend für Sprachagenten. Dieses Modell "versteht" sowohl semantische als auch akustische Muster und mildert den Kompromiss der Sprach-KI zwischen unerwünschter Drehverzögerung und dem Unterbrechen von Personen, bevor sie mit dem Sprechen fertig sind. Trainingsskripte für sowohl @modal_labs als auch lokales Training sind im Repository. Wir möchten es so einfach wie möglich machen, zu diesem Modell beizutragen oder es anzupassen! Hier ist eine Demo, die das Smart-Turn-Modell mit den Standardeinstellungen ausführt, mit dem Ziel, insgesamt 400ms Drehungserkennungszeit zu erreichen. Sie können die Dinge auch schneller einstellen. Sie können helfen, indem Sie Daten beitragen, Architektur-Experimente durchführen oder Open Source-Daten bereinigen! Weiter lesen ...
36,91K