Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: código aberto, detecção de turnos de áudio nativa em 14 idiomas.
Novo ponto de verificação do código aberto, dados abertos, código de treinamento aberto, modelo VAD semântico no @huggingface, @FAL e @pipecat_ai.
- Inferência 3x mais rápida (12ms em um L40)
- 14 idiomas (13 a mais do que a v1, que era apenas em inglês)
- Novo conjunto de dados sintético `chirp_3_all` com ~163k amostras de áudio
- 99% de precisão nos dados de teste retidos `human_5_all`
Uma boa detecção de turnos é crítica para agentes de voz. Este modelo "entende" tanto padrões semânticos quanto de áudio, e mitiga a troca entre latência indesejada de turnos da IA de voz e o agente interrompendo as pessoas antes de terminarem de falar.
Os scripts de treinamento para ambos @modal_labs e treinamento local estão no repositório. Queremos tornar o mais fácil possível contribuir ou personalizar este modelo!
Aqui está uma demonstração rodando o modelo smart-turn com configurações padrão, visando um tempo total de detecção de turnos de 400ms. Você também pode ajustar as coisas para serem mais rápidas.
Você pode ajudar contribuindo com dados, fazendo experimentos de arquitetura ou limpando dados de código aberto! Continue lendo ...
36,91K
Top
Classificação
Favoritos