Génération vocale

Générez de la parole à partir de texte en utilisant une voix enregistrée (voice_id) ou un extrait audio de référence ponctuel (ref_audio).

Générer

Générer

Générez de la parole en utilisant un identifiant de voix sauvegardée (voice_id).

import base64
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key="your-api-key")

response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="Hello! This is Voxtral, Mistral's text-to-speech model.",
    voice_id="your-voice-id",
    response_format="mp3",
)

Path("output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to output.mp3")
Bonnes pratiques

Bonnes pratiques

Consignes pour le prompt textuel

Consignes pour le prompt textuel

  • Correspondance linguistique : le prompt vocal doit être dans la même langue que le prompt textuel pour de meilleurs résultats.
  • Prompts multilingues : le modèle prend également en charge le transfert vocal multilingue. Par exemple, un prompt vocal en français avec un texte en anglais produira de l'anglais avec un accent français.
  • Forme verbalisable : convertissez les nombres et symboles en leur équivalent parlé pour éviter toute ambiguïté. Par exemple, utilisez mille deux cent trente-quatre au lieu de 1234, ou douze trente-quatre selon le contexte.
  • Pas de formatage enrichi : évitez le markdown, les emojis ou les caractères spéciaux dans le texte — ils ne seront pas rendus et peuvent dégrader la qualité de sortie.
  • Abréviations : épelez les abréviations pour une meilleure prononciation. Utilisez F-B-I ou F.B.I. au lieu de FBI.
  • Longueur : limitez les prompts à moins de 300 mots pour de meilleurs résultats.

:::warning Modération de contenu L’API TTS inclut une modération de contenu. Les requêtes contenant certains textes seront rejetées avec une erreur 403. Respectez les directives d’usage acceptable pour vos entrées. :::

Formats audio de réponse

Formats audio de réponse

FormatDescription
mp3Compressé, adapté à la plupart des cas d'usage
wavPCM non compressé, qualité maximale
pcmÉchantillons bruts float32 LE — recommandé pour le streaming (latence minimale)
flacCompression sans perte
opusFaible débit binaire, adapté au streaming