Audio

Transcrivez la parole en texte, générez et clonez des voix à partir de texte, et créez des agents vocaux en temps réel avec les modèles Voxtral de Mistral.

Commencez par le résultat que vous souhaitez obtenir. Utilisez les API audio basées sur les requêtes pour les fichiers et les demandes limitées, l’API en temps réel pour l’audio en direct nécessitant une faible latence, et le pipeline complet de parole à parole pour les agents vocaux qui écoutent, raisonnent et répondent.

Choisissez votre approche

Objectif	Modèles	Comment les utiliser
Transcrire des enregistrements, des réunions ou des archives d’appels	Voxtral Mini Transcribe 2	Transcription hors ligne
Transcrire l’audio en direct avec une latence inférieure à 200 ms	Voxtral Realtime	Transcription en temps réel
Générer une parole naturelle ou cloner une voix	Voxtral TTS	Texte vers parole
Créer un agent vocal qui écoute, raisonne et parle	Voxtral Realtime + un LLM + Voxtral TTS	Pipeline parole à parole

Fonctionnalités

Parole en texte

Convertissez la parole en texte avec une grande précision et une faible latence. Deux modèles couvrent les charges de travail par lots et en direct :

Voxtral Mini Transcribe 2 pour la transcription par lots — diarisation des intervenants, biais contextuel (jusqu’à 100 termes personnalisés), horodatages au niveau des mots, enregistrements allant jusqu’à 3 heures par requête, et une précision robuste au bruit dans 13 langues.
Voxtral Realtime (voxtral-mini-transcribe-realtime-2602) pour le streaming en direct — transcrit l’audio au fur et à mesure de son arrivée avec une latence configurable jusqu’à moins de 200 ms, une empreinte de 4 milliards de paramètres pour un déploiement en périphérie, et des poids ouverts sous licence Apache 2.0.

Note

La transcription en temps réel n’est pas compatible avec le paramètre diarize. Utilisez l’un ou l’autre.

Texte en parole

Voxtral TTS (voxtral-mini-tts-2603) génère une parole expressive et clone toute voix à partir d’un échantillon aussi court que 2 à 3 secondes, en capturant le ton, le rythme et la personnalité. Le modèle traite l’invite vocale comme une instruction : il suit l’intonation et le rendu émotionnel du locuteur sans balises de prosodie séparées. Il prend en charge 9 langues avec un clonage interlinguistique et un mélange de codes, et diffuse avec une faible latence de traitement (~90 ms) pour une utilisation avec des agents vocaux.

Voix : créez et gérez des profils vocaux réutilisables pour une charte graphique cohérente.
Génération de parole : générez de la parole à partir de voix enregistrées ou d'extraits de référence ponctuels, avec une diffusion basique ou en streaming.

Pipeline parole à parole

Combinez les modèles en une boucle vocale temps réel : Voxtral Realtime transcrit la parole entrante, un modèle de langage raisonne sur la transcription et décide d’une réponse, et Voxtral TTS vocalise la réponse.

Chaque composant est personnalisable et déployable indépendamment. L’adaptation vocale interlinguistique permet au même pipeline de gérer la traduction en direct tout en préservant l’accent et l’identité du locuteur.

Modèles

La famille Voxtral couvre la transcription, la génération de parole et la compréhension audio, disponibles sous forme de modèles Premier et à poids ouverts. Ouvrez une fiche modèle pour consulter les fonctionnalités, les langues, les tarifs et les benchmarks.

Voxtral Mini Transcribe 2

An efficient audio input model, pre-trained and optimized for transcription purposes.

v26.02

Voxtral TTS

TTS avancé avec clonage de voix zéro-shot et multilingue.

v26.03

Voxtral Mini Transcribe Realtime

An efficient audio input model, pre-trained and optimized for live transcription purposes.

v26.02

Voxtral Small

Notre premier modèle à comprendre des entrées audio pour des usages instruct.

v25.07

Astuce

Testez la transcription dans le bac à sable parole en texte, et la génération et le clonage de voix dans le bac à sable texte en parole.

Cas d’usage pour les équipes

Service client : agents vocaux qui orientent et résolvent les demandes avec une parole naturelle et adaptée à la charte graphique.
Services financiers : IA vocale conforme pour le conseil, les demandes de politique et l’onboarding client.
Conformité et risques : surveillance des appels en temps réel avec attribution des intervenants et enregistrements d’interactions audités.
Industrie et opérations sur le terrain : interfaces vocales pour l’inspection et les retours dans des environnements bruyants.
Réunions et ventes : intelligence des réunions avec attribution des intervenants et suivi automatisé.
Traduction en temps réel : adaptation vocale interlinguistique pour une traduction en direct qui préserve l’identité et l’accent du locuteur.

FAQ