Audio
Transcrivez la parole en texte, générez et clonez des voix à partir de texte, et créez des agents vocaux en temps réel avec les modèles Voxtral de Mistral.
Commencez par le résultat que vous souhaitez obtenir. Utilisez les API audio basées sur les requêtes pour les fichiers et les demandes limitées, l’API en temps réel pour l’audio en direct nécessitant une faible latence, et le pipeline complet de parole à parole pour les agents vocaux qui écoutent, raisonnent et répondent.
Choisissez votre approche
| Objectif | Modèles | Comment les utiliser |
|---|---|---|
| Transcrire des enregistrements, des réunions ou des archives d’appels | Voxtral Mini Transcribe 2 | Transcription hors ligne |
| Transcrire l’audio en direct avec une latence inférieure à 200 ms | Voxtral Realtime | Transcription en temps réel |
| Générer une parole naturelle ou cloner une voix | Voxtral TTS | Texte vers parole |
| Créer un agent vocal qui écoute, raisonne et parle | Voxtral Realtime + un LLM + Voxtral TTS | Pipeline parole à parole |
Fonctionnalités
Parole en texte
Convertissez la parole en texte avec une grande précision et une faible latence. Deux modèles couvrent les charges de travail par lots et en direct :
- Voxtral Mini Transcribe 2 pour la transcription par lots — diarisation des intervenants, biais contextuel (jusqu’à 100 termes personnalisés), horodatages au niveau des mots, enregistrements allant jusqu’à 3 heures par requête, et une précision robuste au bruit dans 13 langues.
- Voxtral Realtime (
voxtral-mini-transcribe-realtime-2602) pour le streaming en direct — transcrit l’audio au fur et à mesure de son arrivée avec une latence configurable jusqu’à moins de 200 ms, une empreinte de 4 milliards de paramètres pour un déploiement en périphérie, et des poids ouverts sous licence Apache 2.0.
La transcription en temps réel n’est pas compatible avec le paramètre diarize. Utilisez l’un ou l’autre.
Texte en parole
Voxtral TTS (voxtral-mini-tts-2603) génère une parole expressive et clone toute voix à partir d’un échantillon aussi court que 2 à 3 secondes, en capturant le ton, le rythme et la personnalité. Le modèle traite l’invite vocale comme une instruction : il suit l’intonation et le rendu émotionnel du locuteur sans balises de prosodie séparées. Il prend en charge 9 langues avec un clonage interlinguistique et un mélange de codes, et diffuse avec une faible latence de traitement (~90 ms) pour une utilisation avec des agents vocaux.
- Voix : créez et gérez des profils vocaux réutilisables pour une charte graphique cohérente.
- Génération de parole : générez de la parole à partir de voix enregistrées ou d'extraits de référence ponctuels, avec une diffusion basique ou en streaming.
Pipeline parole à parole
Combinez les modèles en une boucle vocale temps réel : Voxtral Realtime transcrit la parole entrante, un modèle de langage raisonne sur la transcription et décide d’une réponse, et Voxtral TTS vocalise la réponse.
Chaque composant est personnalisable et déployable indépendamment. L’adaptation vocale interlinguistique permet au même pipeline de gérer la traduction en direct tout en préservant l’accent et l’identité du locuteur.
Modèles
La famille Voxtral couvre la transcription, la génération de parole et la compréhension audio, disponibles sous forme de modèles Premier et à poids ouverts. Ouvrez une fiche modèle pour consulter les fonctionnalités, les langues, les tarifs et les benchmarks.
Voxtral Mini Transcribe 2
An efficient audio input model, pre-trained and optimized for transcription purposes.
Voxtral TTS
TTS avancé avec clonage de voix zéro-shot et multilingue.
Voxtral Mini Transcribe Realtime
An efficient audio input model, pre-trained and optimized for live transcription purposes.
Voxtral Small
Notre premier modèle à comprendre des entrées audio pour des usages instruct.
Testez la transcription dans le bac à sable parole en texte, et la génération et le clonage de voix dans le bac à sable texte en parole.
Cas d’usage pour les équipes
- Service client : agents vocaux qui orientent et résolvent les demandes avec une parole naturelle et adaptée à la charte graphique.
- Services financiers : IA vocale conforme pour le conseil, les demandes de politique et l’onboarding client.
- Conformité et risques : surveillance des appels en temps réel avec attribution des intervenants et enregistrements d’interactions audités.
- Industrie et opérations sur le terrain : interfaces vocales pour l’inspection et les retours dans des environnements bruyants.
- Réunions et ventes : intelligence des réunions avec attribution des intervenants et suivi automatisé.
- Traduction en temps réel : adaptation vocale interlinguistique pour une traduction en direct qui préserve l’identité et l’accent du locuteur.