Passer au contenu principal
Il s’agit d’un notebook interactif. Vous pouvez l’exécuter localement ou utiliser les liens ci-dessous :

Optimiser les flux de travail LLM à l’aide de DSPy et Weave

Le BIG-bench (Beyond the Imitation Game Benchmark) est un benchmark collaboratif conçu pour tester les grands modèles de langage et extrapoler leurs capacités futures. Il comprend plus de 200 tâches. Le BIG-Bench Hard (BBH) est une suite de 23 tâches BIG-Bench parmi les plus difficiles, qui peuvent s’avérer assez complexes à résoudre avec la génération actuelle de modèles de langage. Ce tutoriel montre comment améliorer les performances de notre flux de travail LLM appliqué à la tâche de jugement causal du benchmark BIG-Bench Hard et évaluer nos stratégies de prompting. Nous utiliserons DSPy pour implémenter notre flux de travail LLM et optimiser notre stratégie de prompting. Nous utiliserons également Weave pour suivre notre flux de travail LLM et évaluer nos stratégies de prompting.

Installation des dépendances

Ce tutoriel nécessite les bibliothèques suivantes :
  • DSPy pour construire le flux de travail LLM et l’optimiser.
  • Weave pour suivre notre flux de travail LLM et évaluer nos stratégies de prompting.
  • datasets pour accéder au jeu de données Big-Bench Hard sur le Hub HuggingFace.
!pip install -qU dspy-ai weave datasets
Puisque nous allons utiliser l’API OpenAI comme fournisseur de LLM, nous aurons également besoin d’une clé API OpenAI. Vous pouvez vous inscrire sur la plateforme OpenAI pour obtenir votre propre clé API.
import os
from getpass import getpass

api_key = getpass("Enter you OpenAI API key: ")
os.environ["OPENAI_API_KEY"] = api_key

Activer le suivi avec Weave

Weave est actuellement intégré à DSPy, et le fait d’inclure weave.init au début de votre code vous permet de tracer automatiquement vos fonctions DSPy et de les explorer dans la Weave UI. Consultez la documentation de l’intégration Weave pour DSPy pour en savoir plus.
import weave

weave.init(project_name="dspy-bigbench-hard")
Dans ce tutoriel, nous utilisons une classe de métadonnées qui hérite de weave.Object pour gérer nos métadonnées.
class Metadata(weave.Object):
    dataset_address: str = "maveriq/bigbenchhard"
    big_bench_hard_task: str = "causal_judgement"
    num_train_examples: int = 50
    openai_model: str = "gpt-3.5-turbo"
    openai_max_tokens: int = 2048
    max_bootstrapped_demos: int = 8
    max_labeled_demos: int = 8

metadata = Metadata()
Gestion des versions des objets : les objets Metadata font automatiquement l’objet d’une gestion des versions et sont tracés lorsque les fonctions qui les utilisent sont elles-mêmes tracées

Charger le jeu de données BIG-Bench Hard

Nous allons charger ce jeu de données à partir de Hugging Face Hub, le répartir en ensembles d’entraînement et de validation, puis les publier sur Weave. Cela nous permettra de versionner les jeux de données et d’utiliser weave.Evaluation pour évaluer notre stratégie de prompting.
import dspy
from datasets import load_dataset

@weave.op()
def get_dataset(metadata: Metadata):
    # charger le jeu de données BIG-Bench Hard correspondant à la tâche depuis Huggingface Hug
    dataset = load_dataset(metadata.dataset_address, metadata.big_bench_hard_task)[
        "train"
    ]

    # créer les jeux de données d'entraînement et de validation
    rows = [{"question": data["input"], "answer": data["target"]} for data in dataset]
    train_rows = rows[0 : metadata.num_train_examples]
    val_rows = rows[metadata.num_train_examples :]

    # créer les exemples d'entraînement et de validation composés d'objets `dspy.Example`
    dspy_train_examples = [
        dspy.Example(row).with_inputs("question") for row in train_rows
    ]
    dspy_val_examples = [dspy.Example(row).with_inputs("question") for row in val_rows]

    # publier les jeux de données sur Weave, ce qui permet de versionner les données et de les utiliser pour l'évaluation
    weave.publish(
        weave.Dataset(
            name=f"bigbenchhard_{metadata.big_bench_hard_task}_train", rows=train_rows
        )
    )
    weave.publish(
        weave.Dataset(
            name=f"bigbenchhard_{metadata.big_bench_hard_task}_val", rows=val_rows
        )
    )

    return dspy_train_examples, dspy_val_examples

dspy_train_examples, dspy_val_examples = get_dataset(metadata)
Interface de chargement d’un jeu de données DSPy avec les étapes de préparation et la structure des données

Le programme DSPy

DSPy est un framework qui déplace la création de nouveaux pipelines de LM de la manipulation de chaînes de texte libres vers la programmation (en composant des opérateurs modulaires pour construire des graphes de transformation de texte), où un compilateur génère automatiquement, à partir d’un programme, des stratégies d’invocation de LM et des prompts optimisés. Nous utiliserons l’abstraction dspy.OpenAI pour effectuer des appels LLM vers GPT3.5 Turbo.
system_prompt = """
You are an expert in the field of causal reasoning. You are to analyze the a given question carefully and answer in `Yes` or `No`.
You should also provide a detailed explanation justifying your answer.
"""

llm = dspy.OpenAI(model="gpt-3.5-turbo", system_prompt=system_prompt)
dspy.settings.configure(lm=llm)

Écrire la signature du raisonnement causal

Une signature est une spécification déclarative du comportement en entrée/sortie d’un module DSPy. Les modules DSPy sont des composants adaptatifs à la tâche — comparables à des couches de réseau de neurones — qui font abstraction de toute transformation de texte particulière.
from pydantic import BaseModel, Field

class Input(BaseModel):
    query: str = Field(description="The question to be answered")

class Output(BaseModel):
    answer: str = Field(description="The answer for the question")
    confidence: float = Field(
        ge=0, le=1, description="The confidence score for the answer"
    )
    explanation: str = Field(description="The explanation for the answer")

class QuestionAnswerSignature(dspy.Signature):
    input: Input = dspy.InputField()
    output: Output = dspy.OutputField()

class CausalReasoningModule(dspy.Module):
    def __init__(self):
        self.prog = dspy.TypedPredictor(QuestionAnswerSignature)

    @weave.op()
    def forward(self, question) -> dict:
        return self.prog(input=Input(query=question)).output.dict()
Testons notre flux de travail LLM, c’est-à-dire le CausalReasoningModule, sur un exemple tiré du sous-ensemble de raisonnement causal de Big-Bench Hard.
import rich

baseline_module = CausalReasoningModule()

prediction = baseline_module(dspy_train_examples[0]["question"])
rich.print(prediction)
Résultats de l’évaluation du programme DSPy de référence avec des métriques de performances et des exemples de sortie

Évaluation de notre programme DSPy

Maintenant que nous disposons d’une stratégie de prompting de référence, évaluons-la sur notre jeu de données de validation à l’aide de weave.Evaluation, avec une métrique simple qui compare la réponse prédite à la réponse de référence. Weave prendra chaque exemple, le fera passer dans votre application et attribuera un score à la sortie à l’aide de plusieurs fonctions de scoring personnalisées. Vous obtiendrez ainsi une vue des performances de votre application, ainsi qu’une UI riche pour examiner en détail chaque sortie et son score. Nous devons d’abord créer une fonction simple de scoring pour l’évaluation Weave, qui indique si la réponse produite par le module de référence correspond ou non à la réponse de référence. Les fonctions de scoring doivent avoir un argument nommé model_output, mais les autres arguments sont définis par l’utilisateur et proviennent des exemples du jeu de données. La fonction ne récupérera que les clés nécessaires à partir du nom des arguments dans le dictionnaire.
@weave.op()
def weave_evaluation_scorer(answer: str, output: Output) -> dict:
    return {"match": int(answer.lower() == output["answer"].lower())}
Ensuite, il suffit de définir l’évaluation et de l’exécuter.
validation_dataset = weave.ref(
    f"bigbenchhard_{metadata.big_bench_hard_task}_val:v0"
).get()

evaluation = weave.Evaluation(
    name="baseline_causal_reasoning_module",
    dataset=validation_dataset,
    scorers=[weave_evaluation_scorer],
)

await evaluation.evaluate(baseline_module.forward)
Tableau de bord d’évaluation Weave avec les métriques de performances du programme DSPy, les traces et les résultats de comparaison
Si vous exécutez ce code depuis un script Python, vous pouvez utiliser le code suivant pour lancer l’évaluation :
import asyncio
asyncio.run(evaluation.evaluate(baseline_module.forward))
Exécuter l’évaluation sur le jeu de données de raisonnement causal coûtera environ 0,24 $ en crédits OpenAI.

Optimisation de notre programme DSPy

Maintenant que nous disposons d’un programme DSPy de référence, essayons d’en améliorer les performances en raisonnement causal à l’aide du téléprompteur BootstrapFewShot, qui peut ajuster les paramètres d’un programme DSPy afin de maximiser les métriques spécifiées.
from dspy.teleprompt import BootstrapFewShot

@weave.op()
def get_optimized_program(model: dspy.Module, metadata: Metadata) -> dspy.Module:
    @weave.op()
    def dspy_evaluation_metric(true, prediction, trace=None):
        return prediction["answer"].lower() == true.answer.lower()

    teleprompter = BootstrapFewShot(
        metric=dspy_evaluation_metric,
        max_bootstrapped_demos=metadata.max_bootstrapped_demos,
        max_labeled_demos=metadata.max_labeled_demos,
    )
    return teleprompter.compile(model, trainset=dspy_train_examples)

optimized_module = get_optimized_program(baseline_module, metadata)
Interface du processus d’optimisation du programme DSPy avec la configuration du téléprompteur et la progression de l’optimisation
L’exécution de l’évaluation sur le jeu de données de raisonnement causal coûtera environ 0,04 $ en crédits OpenAI.
Maintenant que nous disposons de notre programme optimisé (la stratégie de prompting optimisée), évaluons-le à nouveau sur notre jeu de données de validation et comparons-le à notre programme DSPy de référence.
evaluation = weave.Evaluation(
    name="optimized_causal_reasoning_module",
    dataset=validation_dataset,
    scorers=[weave_evaluation_scorer],
)

await evaluation.evaluate(optimized_module.forward)
Résultats de l’évaluation du programme DSPy optimisé, avec de meilleures métriques de performances et une meilleure qualité des réponses
La comparaison entre l’évaluation du programme initial et celle du programme optimisé montre que ce dernier répond aux questions de raisonnement causal avec une précision nettement supérieure.

Conclusion

Dans ce tutoriel, nous avons appris à utiliser DSPy pour optimiser les prompts, ainsi que Weave pour le suivi et l’évaluation afin de comparer les programmes original et optimisé.