Passer au contenu principal
W&B Weave est une plateforme d’observabilité et d’évaluation conçue pour créer des applications LLM fiables. Weave vous aide à comprendre ce que fait votre application d’IA, à mesurer ses performances et à l’améliorer de manière systématique au fil du temps. Le développement d’applications LLM est fondamentalement différent du développement logiciel traditionnel. Les résultats des LLM sont non déterministes, ce qui complique le débogage. La qualité est subjective et dépend du contexte. De petites modifications des prompts peuvent entraîner des comportements inattendus. Les approches de test traditionnelles montrent vite leurs limites.

Les grands axes de Weave

Weave offre les fonctionnalités clés suivantes :
  • Visibilité sur chaque appel de LLM, ainsi que sur chaque entrée et sortie de votre application.
  • Évaluation systématique pour mesurer les performances par rapport à des cas de test sélectionnés.
  • Suivi des versions des prompts, modèles et données afin de comprendre ce qui a changé.
  • Expérimentation pour comparer différents prompts et modèles.
  • Collecte de retours pour recueillir des jugements humains et des annotations.
  • Surveillance en production à l’aide de garde-fous et d’évaluateurs pour assurer la sécurité et la qualité des LLM.

Traces

Suivez de bout en bout la manière dont les données circulent dans votre application LLM.
  • Consultez les entrées et les sorties pour chaque utilisation de l’application.
  • Consultez les documents sources utilisés pour produire les réponses du LLM.
  • Consultez le coût, le nombre de tokens et la latence des appels LLM.
  • Explorez en détail des prompts spécifiques et la manière dont les réponses sont produites.
  • Recueillez les retours des utilisateurs sur les réponses.
  • Dans votre code, vous pouvez utiliser les ops and calls de Weave pour suivre ce que font vos fonctions.
Premiers pas avec le Tracing

Évaluations

Évaluez systématiquement les performances de votre application LLM afin de déployer en Production avec plus de confiance.
  • Suivez facilement quelles versions du modèle/prompt ont produit quelles performances.
  • Définissez des métriques pour évaluer les réponses à l’aide d’une ou plusieurs fonctions de scoring.
  • Comparez deux évaluations ou plus sur plusieurs métriques. Examinez des échantillons précis pour comparer leurs performances.
Créer un pipeline d’évaluation

Versionnez tout

Weave assure le suivi des versions de vos prompts, jeux de données et configurations de modèle. Si quelque chose casse, vous pouvez voir exactement ce qui a changé. Si quelque chose fonctionne, vous pouvez le reproduire. En savoir plus sur la gestion des versions

Expérimentez avec des prompts et des modèles

Munissez-vous de vos clés API et testez rapidement des prompts, puis comparez les réponses de différents modèles commerciaux dans le playground. Expérimenter dans le playground Weave

Recueillir des retours

Recueillez les retours, annotations et corrections humaines liés à l’utilisation en production. Utilisez ces données pour créer de meilleurs cas de test et améliorer votre application. Recueillir des retours

Surveiller la production

Attribuez un score au trafic de Production avec les mêmes évaluateurs que ceux que vous utilisez pour l’Évaluation. Configurez des garde-fous pour détecter les problèmes avant qu’ils n’atteignent les utilisateurs. Configurer les garde-fous et les moniteurs

Premiers pas avec Weave

Weave fournit des SDK pour Python et TypeScript. Les deux SDK prennent en charge le tracing, l’évaluation, les jeux de données et les fonctionnalités principales de Weave. Certaines fonctionnalités avancées, comme les Models fondés sur des classes et les évaluateurs, ne sont actuellement pas disponibles dans le SDK TypeScript de Weave. Pour commencer à utiliser Weave :
  1. Créez un compte Weights & Biases sur https://wandb.ai/site et obtenez votre clé API sur https://wandb.ai/authorize
  2. Installez Weave :
pip install weave
  1. Dans votre script, importez Weave et initialisez un projet :
import weave
client = weave.init('your-team/your-project-name')
Vous êtes maintenant prêt à utiliser Weave. Weave s’intègre à des fournisseurs de LLM et à des frameworks populaires. Lorsque vous utilisez une intégration prise en charge, Weave trace automatiquement les appels LLM sans modification supplémentaire du code.
  1. En plus des intégrations prises en charge, vous pouvez aussi utiliser Weave pour enregistrer des traces de fonctions personnalisées en ajoutant une ligne à votre fonction.
Lorsque vous décorez une fonction avec @weave.op() (en Python), ou que vous l’enveloppez avec weave.op() (en TypeScript), Weave capture automatiquement son code, ses entrées, ses sorties et ses métadonnées d’exécution.
    @weave.op
    async def my_function(){
      ...  }
Pour l’essayer dans un tutoriel guidé, voir Premiers pas avec le tracing.