Audio

Transcrivez la parole en texte, générez et clonez des voix à partir de texte, et créez des agents vocaux en temps réel avec les modèles Voxtral de Mistral.

Commencez par le résultat que vous souhaitez obtenir. Utilisez les API audio basées sur les requêtes pour les fichiers et les demandes limitées, l’API en temps réel pour l’audio en direct nécessitant une faible latence, et le pipeline complet de parole à parole pour les agents vocaux qui écoutent, raisonnent et répondent.

Choisissez votre approche

Choisissez votre approche

ObjectifModèlesComment les utiliser
Transcrire des enregistrements, des réunions ou des archives d’appelsVoxtral Mini Transcribe 2Transcription hors ligne
Transcrire l’audio en direct avec une latence inférieure à 200 msVoxtral RealtimeTranscription en temps réel
Générer une parole naturelle ou cloner une voixVoxtral TTSTexte vers parole
Créer un agent vocal qui écoute, raisonne et parleVoxtral Realtime + un LLM + Voxtral TTSPipeline parole à parole
Fonctionnalités

Fonctionnalités

Parole en texte

Parole en texte

Convertissez la parole en texte avec une grande précision et une faible latence. Deux modèles couvrent les charges de travail par lots et en direct :

  • Voxtral Mini Transcribe 2 pour la transcription par lots — diarisation des intervenants, biais contextuel (jusqu’à 100 termes personnalisés), horodatages au niveau des mots, enregistrements allant jusqu’à 3 heures par requête, et une précision robuste au bruit dans 13 langues.
  • Voxtral Realtime (voxtral-mini-transcribe-realtime-2602) pour le streaming en direct — transcrit l’audio au fur et à mesure de son arrivée avec une latence configurable jusqu’à moins de 200 ms, une empreinte de 4 milliards de paramètres pour un déploiement en périphérie, et des poids ouverts sous licence Apache 2.0.
Note

La transcription en temps réel n’est pas compatible avec le paramètre diarize. Utilisez l’un ou l’autre.

Texte en parole

Texte en parole

Voxtral TTS (voxtral-mini-tts-2603) génère une parole expressive et clone toute voix à partir d’un échantillon aussi court que 2 à 3 secondes, en capturant le ton, le rythme et la personnalité. Le modèle traite l’invite vocale comme une instruction : il suit l’intonation et le rendu émotionnel du locuteur sans balises de prosodie séparées. Il prend en charge 9 langues avec un clonage interlinguistique et un mélange de codes, et diffuse avec une faible latence de traitement (~90 ms) pour une utilisation avec des agents vocaux.

  • Voix : créez et gérez des profils vocaux réutilisables pour une charte graphique cohérente.
  • Génération de parole : générez de la parole à partir de voix enregistrées ou d'extraits de référence ponctuels, avec une diffusion basique ou en streaming.
Pipeline parole à parole

Pipeline parole à parole

Combinez les modèles en une boucle vocale temps réel : Voxtral Realtime transcrit la parole entrante, un modèle de langage raisonne sur la transcription et décide d’une réponse, et Voxtral TTS vocalise la réponse.

Pipeline parole à parole : la parole entrante est envoyée à Voxtral Realtime (transcription de la parole), puis à un modèle de langage (raisonnement sur la transcription), puis à Voxtral TTS (vocalisation de la réponse), produisant une parole sortante.

Chaque composant est personnalisable et déployable indépendamment. L’adaptation vocale interlinguistique permet au même pipeline de gérer la traduction en direct tout en préservant l’accent et l’identité du locuteur.

Modèles

Modèles

La famille Voxtral couvre la transcription, la génération de parole et la compréhension audio, disponibles sous forme de modèles Premier et à poids ouverts. Ouvrez une fiche modèle pour consulter les fonctionnalités, les langues, les tarifs et les benchmarks.

Astuce
Cas d’usage pour les équipes

Cas d’usage pour les équipes

  • Service client : agents vocaux qui orientent et résolvent les demandes avec une parole naturelle et adaptée à la charte graphique.
  • Services financiers : IA vocale conforme pour le conseil, les demandes de politique et l’onboarding client.
  • Conformité et risques : surveillance des appels en temps réel avec attribution des intervenants et enregistrements d’interactions audités.
  • Industrie et opérations sur le terrain : interfaces vocales pour l’inspection et les retours dans des environnements bruyants.
  • Réunions et ventes : intelligence des réunions avec attribution des intervenants et suivi automatisé.
  • Traduction en temps réel : adaptation vocale interlinguistique pour une traduction en direct qui préserve l’identité et l’accent du locuteur.
FAQ

FAQ