Utiliser des modèles hors ligne

Le CLI Vibe Code prend en charge tout modèle accessible via une API compatible OpenAI. Vous pouvez déployer Devstral sur votre propre infrastructure et y connecter le CLI. Utile si vous avez besoin d’une inférence locale, d’un accès internet restreint, ou d’un contrôle total sur la destination de votre code.

Modèles recommandés

Nous recommandons ces modèles open source pour une utilisation locale :

Devstral Small 2 : dense, 24B, optimisé pour les tâches de type agent et de code. Empreinte matérielle réduite.
Mistral Small 4 : 119B Mixture of Experts avec 6,5B de paramètres actifs. Raisonnement hybride et génération de code, contexte 256k.

Matériel

Pour de bonnes performances sur de longs contextes, nous recommandons un déploiement en précision FP8 avec une longueur de contexte autour de 128k :

H100 ou A100 GPU pour FP8 / 128k
RTX 4090 ou toute autre carte avec 24 Go de VRAM pour une précision 4 bits et un contexte de 32k
CPU offload : fonctionne aussi sur toute machine avec suffisamment de RAM, mais c’est beaucoup plus lent

Adaptez la précision et la longueur du contexte selon le modèle et le matériel dont vous disposez.

Note

Les chiffres ci-dessus sont adaptés à Devstral Small 2 (dense, 24B). Mistral Small 4 (119B Mixture of Experts) nécessite nettement plus de VRAM : prévoyez au moins une H100 80Go en FP8, plus pour les contextes très longs.

Déployer avec vLLM

Nous recommandons vLLM pour servir Devstral.

Lancer Devstral Small 2 sur le port 8080 :

vllm serve mistralai/Devstral-Small-2-24B-Instruct-2512 \
  --tool-call-parser mistral \
  --enable-auto-tool-choice \
  --port 8080

vllm serve mistralai/Devstral-Small-2-24B-Instruct-2512 \
  --tool-call-parser mistral \
  --enable-auto-tool-choice \
  --port 8080

Le CLI utilise le port 8080 par défaut pour le serveur local.

Options utiles :

--tensor-parallel-size pour utiliser plusieurs GPU
--dtype pour choisir une précision plus faible
--max-model-len pour réduire la longueur du contexte

Autres options de déploiement

Devstral fonctionne sur tout framework d’inférence exposant une API compatible OpenAI. Quelques solutions populaires :

vLLM (recommandé)
llama.cpp
LM Studio
Ollama

Pointer le CLI vers votre serveur local

Une fois le serveur démarré, passez au modèle local depuis le CLI :

/config

/config

Sélectionnez le modèle local.

Pour un usage récurrent, créez un provider et un preset modèle dans config.toml. Voir Clés API et profils et Configuration pour la syntaxe des presets.

Un exemple minimal pour un serveur local compatible OpenAI sur le port 8080 :

[[providers]]
name = "local"
api_base = "http://localhost:8080/v1"
api_style = "openai"
backend = "generic"

[[models]]
name = "mistralai/Devstral-Small-2-24B-Instruct-2512"
provider = "local"
alias = "devstral-local"

active_model = "devstral-local"

[[providers]]
name = "local"
api_base = "http://localhost:8080/v1"
api_style = "openai"
backend = "generic"

[[models]]
name = "mistralai/Devstral-Small-2-24B-Instruct-2512"
provider = "local"
alias = "devstral-local"

active_model = "devstral-local"

Gardez la main

Validez la qualité des sorties sur des cas d’usage représentatifs avant de compter sur le modèle local pour des modifications.
Si possible, hébergez votre serveur local sur un réseau privé.
Vérifiez quelles données quittent la machine si vous mélangez outils locaux et distants (MCP, connecteurs).

Fonctionner totalement hors ligne

Si vous avez choisi des modèles hors ligne pour des raisons de confidentialité, pensez aussi à désactiver la télémétrie et tout appel réseau en arrière-plan. Configurez dans ~/.vibe/config.toml :

enable_telemetry = false
enable_auto_update = false

enable_telemetry = false
enable_auto_update = false

Avec ces paramètres et un provider local comme ci-dessus, le CLI ne contacte ni mistral.ai ni aucun autre service externe. Les compétences, serveurs MCP, et connecteurs accédant à l’extérieur doivent être désactivés séparément. Vérifiez enabled_tools, disabled_tools, mcp_servers et votre liste de connecteurs.