Transcription vocale

Cette page présente les fonctionnalités de transcription vocale de Mistral, y compris la transcription hors ligne et en temps réel. Vous découvrirez comment intégrer ces fonctionnalités dans vos applications et comprendrez leurs cas d’usage.

Vue d'ensemble

Les services de transcription vocale de Mistral vous permettent de convertir la parole en texte (STT) avec une grande précision et une faible latence. Nous proposons deux modèles principaux adaptés à différents cas d’usage :

Voxtral Mini Transcribe V2

Voxtral Mini Transcribe V2 est conçu pour la transcription par lots. Il offre :

Haute précision : qualité de transcription de premier plan avec de faibles taux d'erreur sur les mots.
Diarisation des locuteurs : identifie et labellise automatiquement les différents intervenants dans votre audio.
Biaisage contextuel : vous permet de guider le modèle avec un vocabulaire personnalisé pour une transcription précise des termes spécifiques à votre domaine.
Horodatage au niveau du mot : fournit des horodatages précis pour chaque mot, utile pour la génération de sous-titres et la recherche audio.
Support multilingue : prend en charge la transcription en 13 langues, dont l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais.
Robustesse au bruit : maintient une grande précision dans des environnements acoustiques difficiles.
Support des longs audios : traite des enregistrements jusqu'à 3 heures en une seule requête.

Voxtral Realtime

Voxtral Realtime est conçu pour les applications en direct. Il offre :

Latence ultra-faible : latence configurable jusqu'à moins de 200 ms, idéale pour les agents vocaux et les applications temps réel.
Architecture en streaming : transcrit l'audio au fur et à mesure qu'il arrive, permettant des interactions vocales naturelles et réactives.
Support multilingue : performances solides dans 13 langues, assurant une portée mondiale.
Déploiement edge : peut être déployé sur des appareils edge pour des applications axées sur la confidentialité avec une empreinte de 4 milliards de paramètres.
Poids ouverts : disponible sous licence Apache 2.0 sur le Hub Hugging Face, offrant flexibilité et transparence.

Note

Sécurité et confidentialité : les deux modèles prennent en charge les déploiements conformes au RGPD et à la HIPAA via des configurations sécurisées sur site ou dans le cloud privé, garantissant la protection de vos données.

Services de transcription vocale

Commencer

Découvrez les fonctionnalités des services de transcription vocale de Mistral avec nos guides complets :

Transcription hors ligne : apprenez à utiliser Voxtral Mini Transcribe V2 pour la transcription par lots, incluant la diarisation des locuteurs, le biaisage contextuel et les horodatages au niveau du mot.
Transcription en temps réel : apprenez à intégrer Voxtral Realtime pour la transcription en direct avec une latence ultra-faible, parfaite pour les agents vocaux et les applications temps réel.

Information

Vous cherchez à traduire plusieurs fichiers à la fois ? Consultez notre fonctionnalité Batch (via API)