TensorRT

Suivez la documentation officielle de TensorRT-LLM pour construire le moteur.

  • Pour Mistral-7B, vous pouvez utiliser l'exemple LLaMA
  • Pour Mixtral-8X7B, documentation officielle à venir...
Déployer le moteur

Déployer le moteur

Une fois le moteur construit, il peut être déployé en utilisant le serveur d'inférence Triton et son backend TensorRTLLM.

Suivez la documentation officielle.