Text to Speech

Voxtral TTS est le modèle de synthèse vocale de Mistral avec clonage de voix zero-shot. Il génère une parole naturelle et expressive à partir de texte en utilisant un court échantillon audio.

Fonctionnalités principales

Clonage de voix zero-shot : clonez n'importe quelle voix à partir de seulement 2 à 3 secondes d'audio, en capturant l'émotion, le style d'élocution et l'accent.
Voix comme instruction : le modèle suit l'intonation, le rythme et le rendu émotionnel de l'échantillon vocal — aucune balise de prosodie ou d'émotion n'est nécessaire.
Support multilingue : anglais, français, espagnol, portugais, italien, néerlandais, allemand, hindi, arabe. Prend en charge le clonage de voix interlingue et le mélange de langues.
Streaming : faible latence du modèle (~90 ms de temps de traitement). Le délai end-to-end de l'API avant le premier audio varie selon le format (~0,8 s pour pcm, ~3 s pour mp3), adapté aux applications d'agents vocaux en temps réel.

Services de synthèse vocale

Explorez nos services de synthèse vocale complets pour donner vie à vos applications avec une parole au rendu naturel :

Voix : créez et gérez des profils vocaux réutilisables pour garantir cohérence de marque et personnalisation.
Génération de parole : générez de la parole en utilisant soit des voix enregistrées, soit des extraits audio de référence ponctuels, avec prise en charge de la diffusion basique et en streaming.