TensorRT

Suivez la documentation officielle de TensorRT-LLM pour construire le moteur.

Déployer le moteur

Une fois le moteur construit, il peut être déployé en utilisant le serveur d'inférence Triton et son backend TensorRTLLM.