Vision

Les fonctionnalités de vision permettent aux modèles d’analyser des images et de fournir des informations à partir de contenus visuels, en plus du texte. Cette approche multimodale ouvre de nouvelles perspectives pour les applications exigeant une compréhension à la fois textuelle et visuelle.

Nous proposons une gamme de modèles dotés de capacités de vision, tous disponibles via l’API Chat Completions.

Astuce

Pour la lecture de documents, l’OCR et l’extraction de données, consultez Document AI.

Avant de commencer

Avant de commencer

Modèles recommandés avec capacités vision

  • Mistral Large 3 via mistral-large-2512
  • Mistral Medium 3.1 via mistral-medium-2508
  • Mistral Small 3.2 via mistral-small-2506
  • Ministral 3 :
    • Ministral 3 14B via ministral-14b-2512
    • Ministral 3 8B via ministral-8b-2512
    • Ministral 3 3B via ministral-3b-2512
Envoyer une image

Envoyer une image

Utiliser les modèles vision

Il existe deux façons d’envoyer une image à l’API Chat Completions : soit en passant une URL, soit en passant une image encodée en base64.

Astuce

Avant de continuer, nous vous recommandons de lire la documentation Chat Completions pour en savoir plus sur cette API et son utilisation.

Si l'image est hébergée en ligne, vous pouvez simplement fournir l'URL publiquement accessible de l'image dans la requête. Cette méthode est simple et ne nécessite aucun encodage.

import os
from mistralai.client import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
model = "mistral-small-latest"

client = Mistral(api_key=api_key)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "What's in this image?"
            },
            {
                "type": "image_url",
                "image_url": "https://docs.mistral.ai/img/eiffel-tower-paris.jpg"
            }
        ]
    }
]

chat_response = client.chat.complete(
    model=model,
    messages=messages
)
Cas d’usage

Cas d’usage

Vous trouverez ci-dessous quelques exemples d’utilisation de nos modèles vision, allant de la compréhension de graphiques à l’extraction de données. Les usages sont variés.

Note

Voici des exemples simples, à adapter pour vos propres besoins. Pour l’OCR et des réponses structurées, consultez Document AI.

curl https://api.mistral.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $MISTRAL_API_KEY" \
  -d '{
    "model": "ministral-14b-latest",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What's in this image?"
          },
          {
            "type": "image_url",
            "image_url": "https://cdn.statcdn.com/Infographic/images/normal/30322.jpeg"
          }
        ]
      }
    ],
    "max_tokens": 300
  }'
FAQ

FAQ