熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Smart Turn v2:開源,原生音頻轉換檢測支持14種語言。
新的開源、新數據、新訓練代碼的檢查點,語義VAD模型在@huggingface、@FAL和@pipecat_ai上。
- 3倍更快的推理(在L40上為12毫秒)
- 14種語言(比v1多13種,v1僅支持英語)
- 新的合成數據集`chirp_3_all`,包含約163k音頻樣本
- 在保留的`human_5_all`測試數據上達到99%的準確率
良好的轉換檢測對於語音代理至關重要。這個模型"理解"語義和音頻模式,並減輕語音AI在不必要的轉換延遲與代理在對方未說完之前打斷的權衡。
@modal_labs和本地訓練的訓練腳本都在庫中。我們希望讓貢獻或自定義這個模型變得盡可能簡單!
這裡有一個演示,運行智能轉換模型,使用默認設置,目標是總轉換檢測時間約400毫秒。你也可以調整設置使其更快。
你可以通過貢獻數據、進行架構實驗或清理開源數據來幫助!繼續閱讀...
36.91K
熱門
排行
收藏