Transcription Offline

Avant de commencer

Modèles avec capacités audio

Modèles compatibles audio :

Voxtral Small (voxtral-small-latest) avec entrée audio pour les cas d'usage chat.
Voxtral Mini Transcribe 2 (voxtral-mini-latest via audio/transcriptions), avec un service de transcription uniquement, efficace.

Astuce

Pour un temps de transcription plus rapide, nous recommandons de télécharger vos fichiers audio.

Chat avec audio

Utiliser l'audio avec les modèles d'instruction

Nos modèles Voxtral peuvent être utilisés pour des cas d'usage de chat avec notre endpoint de chat completion.

Astuce

Avant de continuer, nous recommandons de lire la documentation chat completion pour en savoir plus sur l'API de chat completion et comment l'utiliser avant de poursuivre.

Pour transmettre un fichier audio local, vous pouvez l'encoder en base64 et le passer sous forme de chaîne de caractères.

import base64
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-small-latest"

client = Mistral(api_key=api_key)

# Encode the audio file in base64
with open("examples/files/bcn_weather.mp3", "rb") as f:
    content = f.read()
audio_base64 = base64.b64encode(content).decode('utf-8')

chat_response = client.chat.complete(
    model=model,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "input_audio",
                "input_audio": audio_base64,
            },
            {
                "type": "text",
                "text": "What's in this file?"
            },
        ]
    }],
)

import base64
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-small-latest"

client = Mistral(api_key=api_key)

# Encode the audio file in base64
with open("examples/files/bcn_weather.mp3", "rb") as f:
    content = f.read()
audio_base64 = base64.b64encode(content).decode('utf-8')

chat_response = client.chat.complete(
    model=model,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "input_audio",
                "input_audio": audio_base64,
            },
            {
                "type": "text",
                "text": "What's in this file?"
            },
        ]
    }],
)

Exemples

Vous trouverez ci-dessous quelques-uns des nombreux cas d'usage possibles, en exploitant les capacités audio de nos modèles.

Utilisateur

Assistant

Bien sûr, voici la transcription de ce que vous avez dit : « Aujourd'hui, le 15 juillet 2025, Mistral AI annonce les nouveaux modèles Voxtral. » Et voici le code Python pour générer les n premiers nombres de la suite de Fibonacci :

def fibonacci(n):
    if n <= 0:
        return []
    elif n == 1:
        return [0]
    elif n == 2:
        return [0, 1]

fib_sequence = [0, 1]
for i in range(2, n):
    next_value = fib_sequence[-1] + fib_sequence[-2]
    fib_sequence.append(next_value)

return fib_sequence

# Exemple d'utilisation :
n = 10  # Modifiez cette valeur pour obtenir les n premiers nombres de la suite de Fibonacci
print(fibonacci(n))

def fibonacci(n):
    if n <= 0:
        return []
    elif n == 1:
        return [0]
    elif n == 2:
        return [0, 1]

fib_sequence = [0, 1]
for i in range(2, n):
    next_value = fib_sequence[-1] + fib_sequence[-2]
    fib_sequence.append(next_value)

return fib_sequence

# Exemple d'utilisation :
n = 10  # Modifiez cette valeur pour obtenir les n premiers nombres de la suite de Fibonacci
print(fibonacci(n))

Ce code définit une fonction fibonacci qui prend un entier n et renvoie une liste contenant les n premiers nombres de la suite de Fibonacci. Vous pouvez modifier la valeur de n pour obtenir le nombre souhaité de nombres de Fibonacci.

Transcription

Transcrire n'importe quel audio

La transcription fournit un endpoint optimisé à des fins de transcription et prend actuellement en charge voxtral-mini-latest, qui exécute Voxtral Mini Transcribe 2.

Paramètres
Nous proposons différents réglages et paramètres pour la transcription, tels que :

timestamp_granularities : permet de définir des horodatages pour suivre non seulement « ce qui » a été dit, mais aussi « quand ». Vous trouverez plus d'informations sur les horodatages ici.
diarize : permet de suivre qui parle.
context_bias : fournissez jusqu'à 100 mots ou expressions pour guider le modèle vers les orthographes correctes de noms, termes techniques ou vocabulaire spécifique à un domaine. Particulièrement utile pour les noms propres ou la terminologie sectorielle que les modèles standard manquent souvent. Le biais contextuel est optimisé pour l'anglais ; la prise en charge d'autres langues est expérimentale. Vous trouverez plus d'informations sur le biais contextuel ici.
language : notre service de transcription fonctionne également comme un service de détection de langue. Vous pouvez toutefois définir manuellement la langue de la transcription pour une meilleure précision si la langue de l'audio est déjà connue.

Temps réel : Nous proposons une fonctionnalité de transcription en direct. Vous trouverez plus d'informations sur le temps réel ici.

Parmi les différentes méthodes pour transmettre l'audio, vous pouvez fournir directement un chemin vers un fichier local pour le télécharger et le transcrire comme suit :

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

with open("/path/to/file/audio.mp3", "rb") as f:
    transcription_response = client.audio.transcriptions.complete(
        model=model,
        file={
            "content": f,
            "file_name": "audio.mp3",
        },
        ## language="en"
    )

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

with open("/path/to/file/audio.mp3", "rb") as f:
    transcription_response = client.audio.transcriptions.complete(
        model=model,
        file={
            "content": f,
            "file_name": "audio.mp3",
        },
        ## language="en"
    )

Exemples

Vous trouverez ci-dessous quelques exemples exploitant l'endpoint de transcription audio.

Audio

Transcription

Cette semaine, je me suis rendu à Chicago pour prononcer mon dernier discours d'adieu à la nation, suivant la tradition de mes prédécesseurs. C'était l'occasion de dire merci. Que nous ayons partagé la même vision ou que nous ayons rarement été d'accord, mes conversations avec vous, le peuple américain, dans les salons, dans les écoles, dans les fermes et sur les sols d'usine, dans les restaurants et sur des bases militaires lointaines, toutes ces conversations sont ce qui m'a maintenu honnête, m'a inspiré et m'a permis de continuer. Chaque jour, j'ai appris de vous. Vous avez fait de moi un meilleur président, et vous avez fait de moi un meilleur homme. Au cours de ces huit années, j'ai vu la bonté, la résilience et l'espoir du peuple américain. J'ai vu des voisins prendre soin les uns des autres alors que nous sauvions notre économie de la pire crise de notre vie. J'ai étreint des survivants du cancer qui connaissent enfin la sécurité de soins de santé abordables. J'ai vu des communautés comme Joplin se reconstruire après une catastrophe, et des villes comme Boston montrer au monde qu'aucun terroriste ne brisera jamais l'esprit américain. J'ai vu les visages pleins d'espoir de jeunes diplômés et de nos nouveaux officiers militaires. J'ai pleuré avec des familles en deuil cherchant des réponses. Et j'ai trouvé la grâce dans une église de Charleston. J'ai vu nos scientifiques aider un homme paralysé à retrouver son sens du toucher, et nos soldats blessés remarcher. J'ai vu nos médecins et bénévoles reconstruire après des tremblements de terre et arrêter des pandémies dans leur élan. J'ai appris d'étudiants qui construisent des robots et guérissent des maladies, et qui changeront le monde de manières que nous ne pouvons même pas imaginer. J'ai vu les plus jeunes enfants nous rappeler nos obligations de prendre soin de nos réfugiés, de travailler en paix, et surtout, de veiller les uns sur les autres. C'est ce qui est possible quand nous nous rassemblons dans le travail lent, difficile, parfois frustrant, mais toujours vital de l'autogouvernance. Mais nous ne pouvons pas considérer notre démocratie comme acquise. Nous tous, quel que soit notre parti, devons nous investir dans le travail de citoyenneté. Pas seulement quand il y a une élection. Pas seulement quand notre propre intérêt étroit est en jeu. Mais sur toute la durée d'une vie. Si vous en avez assez de débattre avec des inconnus sur Internet, essayez de parler avec l'un d'eux dans la vraie vie. Si quelque chose doit être réparé, lacez vos chaussures et organisez-vous. Si vous êtes déçu par vos élus, alors prenez un bloc-notes, récoltez des signatures et présentez-vous vous-même aux élections. Notre succès dépend de notre participation, quelle que soit la direction que prend le balancier du pouvoir. Il revient à chacun d'entre nous d'être les gardiens de notre démocratie, d'embrasser la tâche joyeuse qui nous a été donnée d'essayer continuellement d'améliorer cette grande nation qui est la nôtre. Car malgré toutes nos différences extérieures, nous partageons tous le même titre dont nous sommes fiers : citoyen. Ce fut l'honneur de ma vie de vous servir en tant que président. Huit ans plus tard, je suis encore plus optimiste quant à la promesse de notre pays. Et j'ai hâte de travailler à vos côtés en tant que citoyen pour tous les jours qui me restent. Merci à tous. Que Dieu vous bénisse. Et que Dieu bénisse les États-Unis d'Amérique.

Langue

Anglais

Transcription avec horodatage

Vous pouvez demander l'horodatage de la transcription en passant le paramètre timestamp_granularities, qui prend actuellement en charge segment et word.
Cela renverra l'heure de début et de fin de chaque segment du fichier audio.

Note

timestamp_granularities n'est actuellement pas compatible avec language, veuillez utiliser l'un ou l'autre.

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

transcription_response = client.audio.transcriptions.complete(
    model=model,
    file_url="https://docs.mistral.ai/audio/obama.mp3",
    timestamp_granularities=["segment"] # or "word"
)

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

transcription_response = client.audio.transcriptions.complete(
    model=model,
    file_url="https://docs.mistral.ai/audio/obama.mp3",
    timestamp_granularities=["segment"] # or "word"
)

Biais contextuel

Fournissez jusqu'à 100 mots ou expressions pour guider le modèle vers l'orthographe correcte de noms, termes techniques ou vocabulaire spécifique à un domaine. Particulièrement utile pour les noms propres ou la terminologie sectorielle que les modèles standards manquent souvent. Le biais contextuel est optimisé pour l'anglais ; la prise en charge d'autres langues est expérimentale.

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

transcription_response = client.audio.transcriptions.complete(
    model=model,
    file_url="https://docs.mistral.ai/audio/obama.mp3",
    context_bias=[
        "Chicago",
        "Joplin",
        "Boston",
        "Charleston",
        "farewell_address",
        "self-government",
        "citizenship",
        "democracy",
        "American_people",
        "cancer_survivors",
        "affordable_health_care",
        "wounded_warriors",
        "refugees",
        "elected_officials",
        "American_spirit",
        "work_of_citizenship",
        "guardians_of_our_democracy",
    ]
)

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "voxtral-mini-latest"

client = Mistral(api_key=api_key)

transcription_response = client.audio.transcriptions.complete(
    model=model,
    file_url="https://docs.mistral.ai/audio/obama.mp3",
    context_bias=[
        "Chicago",
        "Joplin",
        "Boston",
        "Charleston",
        "farewell_address",
        "self-government",
        "citizenship",
        "democracy",
        "American_people",
        "cancer_survivors",
        "affordable_health_care",
        "wounded_warriors",
        "refugees",
        "elected_officials",
        "American_spirit",
        "work_of_citizenship",
        "guardians_of_our_democracy",
    ]
)

FAQ

Transcription Offline

Avant de commencer

Modèles avec capacités audio

Chat avec audio

Utiliser l'audio avec les modèles d'instruction

Exemples

Transcription

Transcrire n'importe quel audio

Exemples

Transcription avec horodatage

Biais contextuel

FAQ

Quelle est la durée audio maximale ?