Guide de démarrage

Information

Ce guide présente le workflow Observabilité dans Studio.

Vous êtes développeur ? Recherchez les encadrés Implémentation API & SDK inclus dans chaque étape :

ils montrent la ou les méthodes SDK exactes pour la même action,
et renvoient à la section correspondante dans la documentation API/SDK.

Ce que vous obtiendrez

À la fin de ce guide, vous disposerez de :

Une vue filtrée de votre trafic de production montrant les conversations pertinentes.
Un Judge qui identifie et note/labellise automatiquement ces conversations pour vous.
Une Campagne complétée qui applique le Judge à l'ensemble de votre trafic à grande échelle.
Un Dataset construit à partir des résultats de la Campagne.

Avant de commencer

Assurez-vous de disposer de :

Une Organisation de niveau Entreprise.
Un accès administrateur aux fonctionnalités Observabilité dans votre Organisation.
Un trafic de production avec des événements de chat completion.

Étape 1 : Explorer le trafic de production

Cliquez sur Observe puis ouvrez Explorer dans la barre latérale.

Votre objectif est de trouver une combinaison de filtres qui fait ressortir les conversations pertinentes (par exemple, les modes de défaillance, les réponses de faible qualité ou les comportements spécifiques que vous souhaitez examiner).

Commencez par une plage temporelle large (par exemple, les 7 derniers jours) et un modèle (par exemple, mistral-medium-2508).
Expérimentez avec les filtres jusqu'à trouver une combinaison qui correspond à vos besoins. Par exemple :
- invoked_tools includes "web_search" pour isoler les conversations utilisant des outils.
- last_user_message_preview contains "reset password" pour trouver les conversations sur un sujet spécifique.
- total_time_elapsed > 5 pour trouver les réponses lentes.
Cliquez sur les événements individuels pour inspecter les messages, les appels d'outils et les métadonnées.

Astuce

Affiner vos filtres améliore la précision du Judge et des Campagnes. Cette étape vous aide à définir ce qui est « pertinent » avant d'automatiser les évaluations.

La vue Explorer avec la barre de filtres affichant `model_name = 'mistral-medium-2508'` et une plage de dates. En dessous, une liste d'événements avec des colonnes pour l'horodatage, le modèle, les tokens et la latence. Un événement est développé montrant la conversation complète.

Implémentation API & SDK

Dans le SDK, utilisez la méthode chat_completion_events.search() pour filtrer vos événements de manière programmatique.

Étape 2 : Créer un Judge

Vous avez identifié une combinaison de filtres qui fait ressortir les conversations pertinentes. Vous allez maintenant créer un Judge pour les évaluer automatiquement.

Accédez à Judges dans la barre latérale et cliquez sur Create Judge.
Sélectionnez un modèle parmi les options disponibles.

Fournissez des instructions claires détaillant comment évaluer les conversations. Par exemple :

Évaluez dans quelle mesure la réponse de l'assistant est utile à la question de l'utilisateur.
Déterminez si la réponse est précise, pertinente et complète.

Évaluez dans quelle mesure la réponse de l'assistant est utile à la question de l'utilisateur.
Déterminez si la réponse est précise, pertinente et complète.

Ajoutez des outils (Optionnel) :
- Activez Web Search pour donner au Judge un accès à internet.
- Choisissez Code Interpreter pour permettre au Judge d'exécuter son propre code Python.
Sélectionnez un type de Judge et fournissez les labels ou plages de scores correspondants :
- Classification pour des labels discrets (par exemple, helpful / not helpful).
- Regression pour un score numérique (par exemple, de 0 à 5).
Cliquez sur Create Judge, fournissez un nom et une description, puis confirmez.

Le formulaire de création de Judge montrant une zone de texte pour les instructions, le sélecteur de type de sortie (Classification sélectionnée avec deux options : 'helpful' et 'not helpful'), et le menu déroulant de sélection du modèle.

Astuce

Testez votre Judge sur des enregistrements réels avant de lancer une Campagne.

Implémentation API & SDK

Dans le SDK, utilisez judges.create() et passez vos instructions et autres paramètres dans la fonction.

Étape 3 : Lancer une Campagne

Une Campagne évalue un ensemble d'événements filtrés et applique votre Judge à ceux-ci. Pour lancer une Campagne :

Accédez à Campaigns dans la barre latérale et cliquez sur Create Campaign.
Dans le formulaire de création de Campagne :
- Sélectionnez le Judge que vous avez créé à l'Étape 2.
- Sélectionnez une plage temporelle (par exemple, les 7 derniers jours).
- Définissez vos filtres (réutilisez les mêmes conditions de filtrage de l'Étape 1, ou élargissez le périmètre si nécessaire)
- Limitez le nombre d'événements à traiter (de 100 à 10 000).
Cliquez sur Create Campaign, définissez un nom et une description pour la Campagne, puis confirmez.

Les Campagnes s'exécutent en arrière-plan. Consultez ultérieurement le tableau de bord Campaigns pour voir les résultats.

La vue détaillée de campagne montrant : le Judge utilisé, la plage temporelle, les conditions de filtrage et le nombre d'événements considérés

Implémentation API & SDK

Dans le SDK, utilisez campaigns.create() pour définir les filtres et attacher votre Judge, puis surveillez la progression avec campaigns.fetch_status().

Étape 4 : Enregistrer les résultats dans un Dataset

Votre Campagne est terminée. Tous les événements sont désormais annotés avec la sortie du Judge et vous pouvez les enregistrer dans un Dataset :

Sélectionnez les événements pertinents (vous pouvez appliquer des filtres supplémentaires).
Cliquez sur Actions et choisissez entre ajouter les événements correspondants à un nouveau Dataset ou les ajouter à un Dataset existant.

Astuce

Les annotations de Campagnes sont liées à leurs événements d'origine. Consultez-les à tout moment dans Explorer.

Implémentation API & SDK

Dans le SDK (voir Campaigns & Datasets), utilisez campaigns.list_events() puis datasets.import_from_explorer() pour transférer directement les événements correspondants dans un dataset.

Félicitations

Félicitations ! Vous avez créé un Dataset organisé et annoté, construit à partir de données de production réelles.

Vous voulez en savoir plus ? Explorez les approfondissements suivants dans la documentation Observabilité :

Explorer : Interrogez des événements spécifiques et filtrez les logs de production.
Judges : Concevez des instructions complexes, des schémas et des techniques de validation.
Campaigns : Annotez des milliers d'événements de production en masse.
Datasets : Gérez les structures d'enregistrement, la curation et les imports de fichiers.

Dépannage

Guide de démarrage

Ce que vous obtiendrez

Avant de commencer

Étape 1 : Explorer le trafic de production

Étape 2 : Créer un Judge

Étape 3 : Lancer une Campagne

Étape 4 : Enregistrer les résultats dans un Dataset

Félicitations

Dépannage

Explorer n'affiche aucun événement

Je ne peux pas exporter d'événements vers un dataset

Les scores du Judge semblent incohérents

La Campagne est en attente ou bloquée

Les annotations de Campagne semblent incorrectes