Génération vocale

Générez de la parole à partir de texte en utilisant une voix enregistrée (voice_id) ou un extrait audio de référence ponctuel (ref_audio).

Générer

Générez de la parole en utilisant un identifiant de voix sauvegardée (voice_id).

import base64
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key="your-api-key")

response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="Hello! This is Voxtral, Mistral's text-to-speech model.",
    voice_id="your-voice-id",
    response_format="mp3",
)

Path("output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to output.mp3")

import base64
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key="your-api-key")

response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="Hello! This is Voxtral, Mistral's text-to-speech model.",
    voice_id="your-voice-id",
    response_format="mp3",
)

Path("output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to output.mp3")

Bonnes pratiques

Consignes pour le prompt textuel

Correspondance linguistique : le prompt vocal doit être dans la même langue que le prompt textuel pour de meilleurs résultats.
Prompts multilingues : le modèle prend également en charge le transfert vocal multilingue. Par exemple, un prompt vocal en français avec un texte en anglais produira de l'anglais avec un accent français.
Forme verbalisable : convertissez les nombres et symboles en leur équivalent parlé pour éviter toute ambiguïté. Par exemple, utilisez mille deux cent trente-quatre au lieu de 1234, ou douze trente-quatre selon le contexte.
Pas de formatage enrichi : évitez le markdown, les emojis ou les caractères spéciaux dans le texte — ils ne seront pas rendus et peuvent dégrader la qualité de sortie.
Abréviations : épelez les abréviations pour une meilleure prononciation. Utilisez F-B-I ou F.B.I. au lieu de FBI.
Longueur : limitez les prompts à moins de 300 mots pour de meilleurs résultats.

:::warning Modération de contenu L’API TTS inclut une modération de contenu. Les requêtes contenant certains textes seront rejetées avec une erreur 403. Respectez les directives d’usage acceptable pour vos entrées. :::

Formats audio de réponse

Format	Description
`mp3`	Compressé, adapté à la plupart des cas d'usage
`wav`	PCM non compressé, qualité maximale
`pcm`	Échantillons bruts float32 LE — recommandé pour le streaming (latence minimale)
`flac`	Compression sans perte
`opus`	Faible débit binaire, adapté au streaming