Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: Open Source, native Audio-Drehungserkennung in 14 Sprachen.
Neuer Checkpoint des Open Source, Open Data, Open Training Code, semantischen VAD-Modells auf @huggingface, @FAL und @pipecat_ai.
- 3x schnellere Inferenz (12ms auf einem L40)
- 14 Sprachen (13 mehr als v1, das nur Englisch war)
- Neuer synthetischer Datensatz `chirp_3_all` mit ~163k Audio-Proben
- 99% Genauigkeit bei den zurückgehaltenen `human_5_all` Testdaten
Eine gute Drehungserkennung ist entscheidend für Sprachagenten. Dieses Modell "versteht" sowohl semantische als auch akustische Muster und mildert den Kompromiss der Sprach-KI zwischen unerwünschter Drehverzögerung und dem Unterbrechen von Personen, bevor sie mit dem Sprechen fertig sind.
Trainingsskripte für sowohl @modal_labs als auch lokales Training sind im Repository. Wir möchten es so einfach wie möglich machen, zu diesem Modell beizutragen oder es anzupassen!
Hier ist eine Demo, die das Smart-Turn-Modell mit den Standardeinstellungen ausführt, mit dem Ziel, insgesamt 400ms Drehungserkennungszeit zu erreichen. Sie können die Dinge auch schneller einstellen.
Sie können helfen, indem Sie Daten beitragen, Architektur-Experimente durchführen oder Open Source-Daten bereinigen! Weiter lesen ...
36,91K
Top
Ranking
Favoriten