Vi introduserer verdens beste (og åpne) talegjenkjenningsmodeller!
Både Voxtral 3B- og Voxtral 24B-modeller går utover transkripsjon med funksjoner som inkluderer: · Kontekst i lang form: med en kontekstlengde på 32k token håndterer Voxtral lyd opptil 30 minutter for transkripsjon, eller 40 minutter for forståelse · Innebygd spørsmål og svar og oppsummering: Støtter å stille spørsmål direkte om lydinnholdet eller generere strukturerte sammendrag, uten behov for å kjede separate ASR- og språkmodeller · Opprinnelig flerspråklig: Automatisk språkgjenkjenning og toppmoderne ytelse på verdens mest brukte språk (engelsk, spansk, fransk, portugisisk, hindi, tysk, nederlandsk, italiensk, for å nevne noen), og hjelper team med å betjene globale publikum med ett enkelt system · Funksjonsanrop rett fra stemmen: Muliggjør direkte utløsning av backend-funksjoner, arbeidsflyter eller API-kall basert på talte brukerintensjoner, og gjør taleinteraksjoner om til handlingsrettede systemkommandoer uten mellomliggende analysetrinn. · Svært dyktig på tekst: Beholder tekstforståelsesmulighetene til språkmodellens ryggrad, Mistral Small 3.1
486,88K