Text to Speech
Voxtral TTS est le modèle de synthèse vocale de Mistral avec clonage de voix zero-shot. Il génère une parole naturelle et expressive à partir de texte en utilisant un court échantillon audio.
Fonctionnalités principales
- Clonage de voix zero-shot : clonez n'importe quelle voix à partir de seulement 2 à 3 secondes d'audio, en capturant l'émotion, le style d'élocution et l'accent.
- Voix comme instruction : le modèle suit l'intonation, le rythme et le rendu émotionnel de l'échantillon vocal — aucune balise de prosodie ou d'émotion n'est nécessaire.
- Support multilingue : anglais, français, espagnol, portugais, italien, néerlandais, allemand, hindi, arabe. Prend en charge le clonage de voix interlingue et le mélange de langues.
- Streaming : faible latence du modèle (~90 ms de temps de traitement). Le délai end-to-end de l'API avant le premier audio varie selon le format (~0,8 s pour
pcm, ~3 s pourmp3), adapté aux applications d'agents vocaux en temps réel.
Services de synthèse vocale
Services de synthèse vocale
Explorez nos services de synthèse vocale complets pour donner vie à vos applications avec une parole au rendu naturel :
- Voix : créez et gérez des profils vocaux réutilisables pour garantir cohérence de marque et personnalisation.
- Génération de parole : générez de la parole en utilisant soit des voix enregistrées, soit des extraits audio de référence ponctuels, avec prise en charge de la diffusion basique et en streaming.