Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: inbyggd ljuddetektering med öppen källkod på 14 språk.
Ny kontrollpunkt för öppen källkod, öppna data, öppen träningskod, semantisk VAD-modell på @huggingface, @FAL och @pipecat_ai.
- 3x snabbare inferens (12 ms på en L40)
- 14 språk (13 fler än v1, som endast var på engelska)
- Ny syntetisk datauppsättning "chirp_3_all" med ~163k ljudprover
- 99 % noggrannhet på uthålliga "human_5_all"-testdata
Bra svängdetektering är avgörande för röstagenter. Den här modellen "förstår" både semantiska mönster och ljudmönster och minskar röst-AI-kompromissen mellan oönskad svarstid och agenten som avbryter personer innan de är klara med att tala.
Träningsskript för både @modal_labs och lokal träning finns på lagringsplatsen. Vi vill göra det så enkelt som möjligt att bidra till eller anpassa denna modell!
Här är en demo som kör smart-turn-modellen med standardinställningar, som syftar till att generellt nå 400 ms total tid för svängdetektering. Du kan också ställa in saker så att de blir snabbare.
Du kan hjälpa till genom att bidra med data, göra arkitekturexperiment eller rensa data med öppen källkod! Fortsätt läsa ...
36,92K
Topp
Rankning
Favoriter