Smart Turn v2:14の言語でのオープンソースのネイティブオーディオターン検出。 オープンソース、オープンデータ、オープントレーニングコード、@huggingface、@FAL、@pipecat_ai上のセマンティックVADモデルの新しいチェックポイント。 - 推論が 3 倍高速 (L40 で 12ms) - 14言語(英語のみのV1より13言語多い) - ~163kのオーディオサンプルを含む新しい合成データセット「chirp_3_all」 - 「human_5_all」テストデータで99%の精度 音声エージェントにとって、良好なターン検出は非常に重要です。このモデルは、セマンティックパターンとオーディオパターンの両方を「理解」し、不要なターンレイテンシーと、エージェントが話し終える前に人々を中断することとの間の音声AIのトレードオフを軽減します。 @modal_labs トレーニングとローカル トレーニングの両方のトレーニング スクリプトはリポジトリにあります。私たちは、このモデルに貢献したり、カスタマイズしたりすることをできるだけ簡単にしたいと考えています。 これは、デフォルト設定でスマートターンモデルを実行し、一般的に合計400msのターン検出時間を達成することを目的としたデモです。また、物事を速く調整することもできます。 データを提供したり、アーキテクチャの体験を行ったり、オープンソースデータをクリーニングしたりすることで、支援することができます。読み続けます...
36.9K