Przedstawiamy Eleven v3 (alpha) — najbardziej wyrazisty model zamiany tekstu na mowę w historii. Obsługuje 70+ języków, dialogi z wieloma mówcami i tagi audio, takie jak [podekscytowany], [wzdycha], [śmiech] i [szepty]. Teraz w publicznej alfie i 80% zniżki w czerwcu.
To jest zapowiedź badań. Wymaga szybszej inżynierii niż poprzednie modele - ale generacje zapierają dech w piersiach. Będziemy kontynuować dostrajanie, aby poprawić niezawodność i kontrolę.
Nowa architektura Eleven v3 dogłębnie rozumie tekst - zapewniając znacznie większą ekspresję. A teraz możesz kierować pokoleniami bardziej bezpośrednio za pomocą tagów audio: - Emocje [smutny] [zły] [radośnie] - Kierunek dostawy [szepty] [krzyki] - Reakcje niewerbalne [śmiech] [odchrząkuje] [wzdycha]
Generuj dialog z wieloma mówcami, który brzmi jak prawdziwa rozmowa. Jedenastka v3 obsługuje przerwy, zmiany tonu i sygnały emocjonalne w oparciu o kontekst rozmowy.
Publiczny interfejs API dla Eleven v3 (alpha) będzie dostępny wkrótce. Aby uzyskać wczesny dostęp, skontaktuj się z działem sprzedaży. Pracujemy nad wersją v3 działającą w czasie rzeczywistym. W przypadku zastosowań w czasie rzeczywistym i konwersacyjnych zalecamy na razie pozostanie przy wersji 2.5 Turbo lub Flash.
Stworzony z myślą o twórcach i deweloperach tworzących narzędzia multimedialne. Jeśli pracujesz nad filmami, audiobookami lub narzędziami multimedialnymi - wersja 3 odblokowuje nowy poziom ekspresji. Dowiedz się, jak w pełni go wykorzystać, korzystając z naszego przewodnika podpowiedzi:
Eleven v3 (alpha) jest już dostępna: W czerwcu jest o 80% taniej. Wypróbuj go - i podziel się z nami swoimi najlepszymi pokoleniami.
1,41M