Smart Turn v2: detecção de giro de áudio nativa de código aberto em 14 idiomas. Novo ponto de verificação do código aberto, dados abertos, código de treinamento aberto, modelo VAD semântico em @huggingface, @FAL e @pipecat_ai. - Inferência 3x mais rápida (12 ms em um L40) - 14 idiomas (13 a mais que a v1, que era apenas em inglês) - Novo conjunto de dados sintéticos 'chirp_3_all' com ~ 163k amostras de áudio - 99% de precisão nos dados de teste "human_5_all" retidos A boa detecção de turnos é fundamental para os agentes de voz. Esse modelo "entende" os padrões semânticos e de áudio e mitiga a compensação de IA de voz entre latência de turno indesejada versus o agente interrompendo as pessoas antes que elas terminem de falar. Os scripts de treinamento para treinamento @modal_labs e local estão no repositório. Queremos tornar o mais fácil possível contribuir ou personalizar este modelo! Aqui está uma demonstração executando o modelo de curva inteligente com configurações padrão, com o objetivo de atingir o tempo total de detecção de curva de 400 ms. Você também pode ajustar as coisas para serem mais rápidas. Você pode ajudar contribuindo com dados, fazendo experiências de arquitetura ou limpando dados de código aberto! Continue lendo ...
36,92K