Vision

Les fonctionnalités de vision permettent aux modèles d’analyser des images et de fournir des informations à partir de contenus visuels, en plus du texte. Cette approche multimodale ouvre de nouvelles perspectives pour les applications exigeant une compréhension à la fois textuelle et visuelle.

Nous proposons une gamme de modèles dotés de capacités de vision, tous disponibles via l’API Chat Completions.

Astuce

Pour la lecture de documents, l’OCR et l’extraction de données, consultez Document AI.

Avant de commencer

Modèles recommandés avec capacités vision

Mistral Large 3 via mistral-large-2512
Mistral Medium 3.1 via mistral-medium-2508
Mistral Small 3.2 via mistral-small-2506
Ministral 3 :
- Ministral 3 14B via ministral-14b-2512
- Ministral 3 8B via ministral-8b-2512
- Ministral 3 3B via ministral-3b-2512

Envoyer une image

Utiliser les modèles vision

Il existe deux façons d’envoyer une image à l’API Chat Completions : soit en passant une URL, soit en passant une image encodée en base64.

Astuce

Avant de continuer, nous vous recommandons de lire la documentation Chat Completions pour en savoir plus sur cette API et son utilisation.

Si l'image est hébergée en ligne, vous pouvez simplement fournir l'URL publiquement accessible de l'image dans la requête. Cette méthode est simple et ne nécessite aucun encodage.

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "mistral-small-latest"

client = Mistral(api_key=api_key)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "What's in this image?"
            },
            {
                "type": "image_url",
                "image_url": "https://docs.mistral.ai/img/eiffel-tower-paris.jpg"
            }
        ]
    }
]

chat_response = client.chat.complete(
    model=model,
    messages=messages
)

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "mistral-small-latest"

client = Mistral(api_key=api_key)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "What's in this image?"
            },
            {
                "type": "image_url",
                "image_url": "https://docs.mistral.ai/img/eiffel-tower-paris.jpg"
            }
        ]
    }
]

chat_response = client.chat.complete(
    model=model,
    messages=messages
)

Cas d’usage

Vous trouverez ci-dessous quelques exemples d’utilisation de nos modèles vision, allant de la compréhension de graphiques à l’extraction de données. Les usages sont variés.

Note

Voici des exemples simples, à adapter pour vos propres besoins. Pour l’OCR et des réponses structurées, consultez Document AI.

curl https://api.mistral.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $MISTRAL_API_KEY" \
  -d '{
    "model": "ministral-14b-latest",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What's in this image?"
          },
          {
            "type": "image_url",
            "image_url": "https://cdn.statcdn.com/Infographic/images/normal/30322.jpeg"
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

curl https://api.mistral.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $MISTRAL_API_KEY" \
  -d '{
    "model": "ministral-14b-latest",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What's in this image?"
          },
          {
            "type": "image_url",
            "image_url": "https://cdn.statcdn.com/Infographic/images/normal/30322.jpeg"
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

FAQ

Vision

Avant de commencer

Modèles recommandés avec capacités vision

Envoyer une image

Utiliser les modèles vision

Cas d’usage

FAQ

Quel est le prix par image ?

Combien de tokens correspondent à une image et/ou quelle est la résolution maximale ?

Puis-je les utiliser pour générer des images ?

Quels types de fichiers image sont pris en charge ?

Existe-t-il une limite de taille pour l’image ?

Quel est le nombre maximal d’images par requête ?

Quel est le seuil de débit (rate limit) ?