Les grands axes de Weave
- Visibilité sur chaque appel de LLM, ainsi que sur chaque entrée et sortie de votre application.
- Évaluation systématique pour mesurer les performances par rapport à des cas de test sélectionnés.
- Suivi des versions des prompts, modèles et données afin de comprendre ce qui a changé.
- Expérimentation pour comparer différents prompts et modèles.
- Collecte de retours pour recueillir des jugements humains et des annotations.
- Surveillance en production à l’aide de garde-fous et d’évaluateurs pour assurer la sécurité et la qualité des LLM.
Traces
- Consultez les entrées et les sorties pour chaque utilisation de l’application.
- Consultez les documents sources utilisés pour produire les réponses du LLM.
- Consultez le coût, le nombre de tokens et la latence des appels LLM.
- Explorez en détail des prompts spécifiques et la manière dont les réponses sont produites.
- Recueillez les retours des utilisateurs sur les réponses.
- Dans votre code, vous pouvez utiliser les ops and calls de Weave pour suivre ce que font vos fonctions.
Évaluations
- Suivez facilement quelles versions du modèle/prompt ont produit quelles performances.
- Définissez des métriques pour évaluer les réponses à l’aide d’une ou plusieurs fonctions de scoring.
- Comparez deux évaluations ou plus sur plusieurs métriques. Examinez des échantillons précis pour comparer leurs performances.
Versionnez tout
Expérimentez avec des prompts et des modèles
Recueillir des retours
Surveiller la production
Premiers pas avec Weave
- Créez un compte Weights & Biases sur https://wandb.ai/site et obtenez votre clé API sur https://wandb.ai/authorize
- Installez Weave :
- Dans votre script, importez Weave et initialisez un projet :
- En plus des intégrations prises en charge, vous pouvez aussi utiliser Weave pour enregistrer des traces de fonctions personnalisées en ajoutant une ligne à votre fonction.
@weave.op() (en Python), ou que vous l’enveloppez avec weave.op() (en TypeScript), Weave capture automatiquement son code, ses entrées, ses sorties et ses métadonnées d’exécution.