TensorRT
Suivez la documentation officielle de TensorRT-LLM pour construire le moteur.
- Pour Mistral-7B, vous pouvez utiliser l'exemple LLaMA
- Pour Mixtral-8X7B, documentation officielle à venir...
Déployer le moteur
Déployer le moteur
Une fois le moteur construit, il peut être déployé en utilisant le serveur d'inférence Triton et son backend TensorRTLLM.
Suivez la documentation officielle.