- Extraire les métriques vers des feuilles de calcul ou des notebooks pour des analyses et visualisations personnalisées.
- Alimenter des pipelines CI/CD avec les résultats d’évaluation afin d’autoriser ou de bloquer les déploiements.
- Partager les résultats avec des parties prenantes qui n’ont pas de licences W&B, via des outils de BI comme Looker ou des tableaux de bord internes.
- Mettre en place des pipelines de reporting automatisés qui agrègent les scores sur plusieurs projets.
Points de terminaison API utilisés
GET /v2/{entity}/{project}/evaluation_runs: Liste les runs d’évaluation d’un projet, avec des filtres facultatifs par référence d’évaluation, référence de modèle ou ID du run.GET /v2/{entity}/{project}/evaluation_runs/{evaluation_run_id}: Lit un run d’évaluation unique afin d’en récupérer le modèle, la référence d’évaluation, le statut, les horodatages et la synthèse.POST /v2/{entity}/{project}/eval_results/query: Récupère des lignes de résultats d’évaluation groupées pour une ou plusieurs évaluations. Renvoie, pour chaque ligne, des essais avec la sortie du modèle, les scores et, éventuellement, les entrées résolues de la ligne du jeu de données. Renvoie également des statistiques agrégées du scorer lorsqu’elles sont demandées.GET /v2/{entity}/{project}/predictions/{prediction_id}: Lit une prédiction individuelle avec ses entrées, sa sortie et sa référence de modèle.
api comme nom d’utilisateur et votre clé API W&B comme mot de passe.
Prérequis
- Python 3.7 ou version ultérieure.
- La bibliothèque
requests. Installez-la avecpip install requests. - Une clé API W&B, définie dans la variable d’environnement
WANDB_API_KEY. Obtenez votre clé sur wandb.ai/settings.
Configurer l’authentification
Lister les runs d’évaluation
Lire un run d’évaluation spécifique
Obtenir les prédictions et les scores
eval_results/query pour récupérer les résultats ligne par ligne d’un run d’Évaluation. Chaque ligne inclut les entrées résolues du jeu de données, la sortie du modèle et les résultats individuels du scorer. Définissez include_rows, include_raw_data_rows et resolve_row_refs pour obtenir le niveau de détail complet pour chaque ligne.
Obtenir des scores agrégés
eval_results/query peut également renvoyer des statistiques agrégées sur les évaluateurs au lieu de données ligne par ligne. Définissez include_summary pour obtenir des métriques de synthèse, comme les taux de réussite pour les évaluateurs binaires et les moyennes pour les évaluateurs continus.
Lire une seule prédiction
Comment utiliser les empreintes de ligne
eval_results/query inclut un row_digest, un hachage de contenu qui identifie de manière unique une entrée spécifique dans le jeu de données d’évaluation en fonction de son contenu, et non de sa position. Les empreintes de ligne sont utiles pour :
- Comparaison entre évaluations : lorsque vous exécutez deux modèles différents sur le même jeu de données, les lignes ayant la même empreinte correspondent à la même entrée. Vous pouvez effectuer une jointure sur
row_digestpour comparer les performances de différents modèles sur exactement la même tâche. - Déduplication : si la même tâche apparaît dans plusieurs suites d’évaluation, l’empreinte vous permet de l’identifier.
- Reproductibilité : l’empreinte est déterminée par le contenu. Ainsi, si quelqu’un modifie une ligne du jeu de données (en changeant le texte de l’instruction, le barème ou d’autres champs), elle obtient une nouvelle empreinte. Vous pouvez vérifier si deux runs d’évaluation ont utilisé des entrées identiques ou des versions légèrement différentes.