世界最高峰の(そしてオープンな)音声認識モデルをご紹介!
Voxtral 3B モデルと Voxtral 24B モデルはどちらも、トランスクリプションにとどまらず、次のような機能を備えています。 ·長文コンテキスト:トークンコンテキストの長さが32kの場合、Voxtralは文字起こしに最大30分、理解に最大40分のオーディオを処理します ·組み込みの Q&A と要約: オーディオ コンテンツについて直接質問したり、構造化された要約を生成したりすることをサポートし、個別の ASR モデルと言語モデルをチェーンする必要はありません ·ネイティブな多言語対応:世界で最も広く使用されている言語(英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など)での自動言語検出と最先端のパフォーマンスにより、チームは単一のシステムで世界中の視聴者にサービスを提供 ·音声から直接関数を呼び出す:音声化されたユーザーのインテントに基づいてバックエンド関数、ワークフロー、またはAPI呼び出しを直接トリガーし、音声インタラクションを中間解析ステップなしで実行可能なシステムコマンドに変換します。 ·テキスト処理能力が高い: 言語モデルのバックボーンである Mistral Small 3.1 のテキスト理解能力を保持
486.88K