DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Smart Turn v2: detecção de giro de áudio nativa de código aberto em 14 idiomas. Novo ponto de verificação do código aberto, dados abertos, código de treinamento aberto, modelo VAD semântico em @huggingface, @FAL e @pipecat_ai. - Inferência 3x mais rápida (12 ms em um L40) - 14 idiomas (13 a mais que a v1, que era apenas em inglês) - Novo conjunto de dados sintéticos 'chirp_3_all' com ~ 163k amostras de áudio - 99% de precisão nos dados de teste "human_5_all" retidos A boa detecção de turnos é fundamental para os agentes de voz. Esse modelo "entende" os padrões semânticos e de áudio e mitiga a compensação de IA de voz entre latência de turno indesejada versus o agente interrompendo as pessoas antes que elas terminem de falar. Os scripts de treinamento para treinamento @modal_labs e local estão no repositório. Queremos tornar o mais fácil possível contribuir ou personalizar este modelo! Aqui está uma demonstração executando o modelo de curva inteligente com configurações padrão, com o objetivo de atingir o tempo total de detecção de curva de 400 ms. Você também pode ajustar as coisas para serem mais rápidas. Você pode ajudar contribuindo com dados, fazendo experiências de arquitetura ou limpando dados de código aberto! Continue lendo ...

36,92K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável