Il s’agit d’un notebook interactif. Vous pouvez l’exécuter en local ou utiliser les liens ci-dessous :
Leaderboard Quickstart
- Générer un jeu de données de faux codes postaux
- Rédiger quelques fonctions de scoring et évaluer un modèle de référence.
- Utiliser ces techniques pour évaluer une matrice modèles/évaluations.
- Examiner le leaderboard dans Weave UI.
Étape 1 : Générer un jeu de données fictif de codes postaux
generate_dataset_rows qui génère une liste de données fictives de codes postaux.
check_concrete_fields: vérifie si la sortie du modèle correspond à la ville et à l’État attendus.check_value_fields: vérifie si la sortie du modèle se situe dans une marge de 10 % par rapport à la population et au revenu médian attendus.check_subjective_fields: utilise un LLM pour vérifier si la sortie du modèle correspond au champ “known for” attendu.