Utiliser des modèles hors ligne
Le CLI Vibe Code prend en charge tout modèle accessible via une API compatible OpenAI. Vous pouvez déployer Devstral sur votre propre infrastructure et y connecter le CLI. Utile si vous avez besoin d’une inférence locale, d’un accès internet restreint, ou d’un contrôle total sur la destination de votre code.
Modèles recommandés
Nous recommandons ces modèles open source pour une utilisation locale :
- Devstral Small 2 : dense, 24B, optimisé pour les tâches de type agent et de code. Empreinte matérielle réduite.
- Mistral Small 4 : 119B Mixture of Experts avec 6,5B de paramètres actifs. Raisonnement hybride et génération de code, contexte 256k.
Matériel
Pour de bonnes performances sur de longs contextes, nous recommandons un déploiement en précision FP8 avec une longueur de contexte autour de 128k :
- H100 ou A100 GPU pour FP8 / 128k
- RTX 4090 ou toute autre carte avec 24 Go de VRAM pour une précision 4 bits et un contexte de 32k
- CPU offload : fonctionne aussi sur toute machine avec suffisamment de RAM, mais c’est beaucoup plus lent
Adaptez la précision et la longueur du contexte selon le modèle et le matériel dont vous disposez.
Les chiffres ci-dessus sont adaptés à Devstral Small 2 (dense, 24B). Mistral Small 4 (119B Mixture of Experts) nécessite nettement plus de VRAM : prévoyez au moins une H100 80Go en FP8, plus pour les contextes très longs.
Déployer avec vLLM
Nous recommandons vLLM pour servir Devstral.
Lancer Devstral Small 2 sur le port 8080 :
vllm serve mistralai/Devstral-Small-2-24B-Instruct-2512 \
--tool-call-parser mistral \
--enable-auto-tool-choice \
--port 8080Le CLI utilise le port 8080 par défaut pour le serveur local.
Options utiles :
--tensor-parallel-sizepour utiliser plusieurs GPU--dtypepour choisir une précision plus faible--max-model-lenpour réduire la longueur du contexte
Autres options de déploiement
Devstral fonctionne sur tout framework d’inférence exposant une API compatible OpenAI. Quelques solutions populaires :
Pointer le CLI vers votre serveur local
Une fois le serveur démarré, passez au modèle local depuis le CLI :
/configSélectionnez le modèle local.
Pour un usage récurrent, créez un provider et un preset modèle dans config.toml. Voir Clés API et profils et Configuration pour la syntaxe des presets.
Un exemple minimal pour un serveur local compatible OpenAI sur le port 8080 :
[[providers]]
name = "local"
api_base = "http://localhost:8080/v1"
api_style = "openai"
backend = "generic"
[[models]]
name = "mistralai/Devstral-Small-2-24B-Instruct-2512"
provider = "local"
alias = "devstral-local"
active_model = "devstral-local"Gardez la main
- Validez la qualité des sorties sur des cas d’usage représentatifs avant de compter sur le modèle local pour des modifications.
- Si possible, hébergez votre serveur local sur un réseau privé.
- Vérifiez quelles données quittent la machine si vous mélangez outils locaux et distants (MCP, connecteurs).
Fonctionner totalement hors ligne
Si vous avez choisi des modèles hors ligne pour des raisons de confidentialité, pensez aussi à désactiver la télémétrie et tout appel réseau en arrière-plan. Configurez dans ~/.vibe/config.toml :
enable_telemetry = false
enable_auto_update = falseAvec ces paramètres et un provider local comme ci-dessus, le CLI ne contacte ni mistral.ai ni aucun autre service externe. Les compétences, serveurs MCP, et connecteurs accédant à l’extérieur doivent être désactivés séparément. Vérifiez enabled_tools, disabled_tools, mcp_servers et votre liste de connecteurs.