Self-Deployment

Les modèles Mistral AI peuvent être déployés directement sur votre propre infrastructure via différents moteurs d'inférence. Nous recommandons l'utilisation de vLLM, un framework de serving hautement optimisé écrit uniquement en Python qui peut exposer une API compatible OpenAI.

D'autres alternatives de moteurs d'inférence incluent TensorRT-LLM et TGI.

Vous pouvez également utiliser des outils spécifiques pour faciliter la gestion de l'infrastructure, tels que SkyPilot ou Cerebrium.

Astuce

Pour un déploiement enterprise complet, de l'inférence de modèle efficace à la gestion d'équipe, nous recommandons de nous contacter.