Génération vocale
Générez de la parole à partir de texte en utilisant une voix enregistrée (voice_id) ou un extrait audio de référence ponctuel (ref_audio).
Générer
Générer
Générez de la parole en utilisant un identifiant de voix sauvegardée (voice_id).
import base64
from pathlib import Path
from mistralai.client import Mistral
client = Mistral(api_key="your-api-key")
response = client.audio.speech.complete(
model="voxtral-mini-tts-2603",
input="Hello! This is Voxtral, Mistral's text-to-speech model.",
voice_id="your-voice-id",
response_format="mp3",
)
Path("output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to output.mp3")Bonnes pratiques
Bonnes pratiques
Consignes pour le prompt textuel
Consignes pour le prompt textuel
- Correspondance linguistique : le prompt vocal doit être dans la même langue que le prompt textuel pour de meilleurs résultats.
- Prompts multilingues : le modèle prend également en charge le transfert vocal multilingue. Par exemple, un prompt vocal en français avec un texte en anglais produira de l'anglais avec un accent français.
- Forme verbalisable : convertissez les nombres et symboles en leur équivalent parlé pour éviter toute ambiguïté. Par exemple, utilisez
mille deux cent trente-quatreau lieu de1234, oudouze trente-quatreselon le contexte. - Pas de formatage enrichi : évitez le markdown, les emojis ou les caractères spéciaux dans le texte — ils ne seront pas rendus et peuvent dégrader la qualité de sortie.
- Abréviations : épelez les abréviations pour une meilleure prononciation. Utilisez
F-B-IouF.B.I.au lieu deFBI. - Longueur : limitez les prompts à moins de 300 mots pour de meilleurs résultats.
:::warning Modération de contenu
L’API TTS inclut une modération de contenu. Les requêtes contenant certains textes seront rejetées avec une erreur 403. Respectez les directives d’usage acceptable pour vos entrées.
:::
Formats audio de réponse
Formats audio de réponse
| Format | Description |
|---|---|
mp3 | Compressé, adapté à la plupart des cas d'usage |
wav | PCM non compressé, qualité maximale |
pcm | Échantillons bruts float32 LE — recommandé pour le streaming (latence minimale) |
flac | Compression sans perte |
opus | Faible débit binaire, adapté au streaming |