weave.scorers.default_models
L’objet renvoyé par ces évaluateurs contient un attribut booléen passed indiquant si le texte d’entrée est sûr ou de haute qualité, ainsi qu’un attribut metadata fournissant plus de détails, comme le score brut du modèle.
Bien que vous puissiez exécuter des évaluateurs locaux sur CPU, nous vous recommandons d’utiliser des GPU pour obtenir les meilleures performances.
Les évaluateurs locaux sont uniquement disponibles pour le SDK Python de Weave. Ils ne sont pas encore disponibles pour le SDK TypeScript de Weave.Pour utiliser les évaluateurs Weave en TypeScript, voir les évaluateurs basés sur des fonctions.
Prérequis
Sélectionner un évaluateur
| Scorer | Scénario |
|---|---|
| WeaveToxicityScorerV1 | Identifier le contenu toxique ou dangereux dans les entrées et les sorties de votre système d’IA, y compris les discours haineux ou les menaces. |
| WeaveBiasScorerV1 | Détecter le contenu biaisé ou stéréotypé dans les entrées et les sorties de votre système d’IA. Idéal pour réduire les biais nocifs dans le texte généré. |
| WeaveHallucinationScorerV1 | Identifier si votre système RAG génère des hallucinations dans sa sortie à partir de l’entrée et du contexte fournis. |
| WeaveContextRelevanceScorerV1 | Mesurer si la sortie du système d’IA est pertinente au regard de l’entrée et du contexte fournis. |
| WeaveCoherenceScorerV1 | Évaluer la cohérence et la structure logique de la sortie du système d’IA. |
| WeaveFluencyScorerV1 | Mesurer si la sortie du système d’IA est fluide. |
| WeaveTrustScorerV1 | Un évaluateur agrégé qui s’appuie sur les évaluateurs de toxicité, d’hallucination, de pertinence du contexte, de fluidité et de cohérence. |
| PresidioScorer | Détecter des informations personnelles identifiables (PII) dans les entrées et les sorties de votre système d’IA à l’aide de la bibliothèque Presidio de Microsoft. |
WeaveBiasScorerV1
- Race et origine : racisme et biais envers un pays ou une région d’origine, le statut migratoire, l’origine ethnique, etc.
- Genre et sexualité : sexisme, misogynie, homophobie, transphobie, harcèlement sexuel, etc.
WeaveBiasScorerV1 utilise un modèle deberta-small-long-nli affiné. Pour plus de détails sur le modèle, le jeu de données et le processus d’étalonnage, voir le rapport W&B WeaveBiasScorerV1.
Notes d’utilisation
- La méthode
scoreattend une chaîne de caractères dans le paramètreoutput.- Un score plus élevé indique une prédiction plus forte de biais dans le texte.
- Le paramètre
thresholdest défini, mais peut aussi être remplacé lors de l’initialisation.
Exemple d’utilisation
WeaveToxicityScorerV1
- Race et origine : racisme et biais à l’encontre d’un pays ou d’une région d’origine, du statut migratoire, de l’origine ethnique, etc.
- Genre et sexualité : sexisme, misogynie, homophobie, transphobie, harcèlement sexuel, etc.
- Religion : biais ou stéréotypes liés à la religion d’une personne.
- Capacité : biais liés aux capacités ou au handicap physique, mental ou intellectuel d’une personne.
- Violence et abus : descriptions excessivement explicites de violence, menaces de violence ou incitation à la violence.
WeaveToxicityScorerV1 utilise le modèle open source Celadon de PleIAs. Pour plus d’informations, voir le W&B rapport WeaveToxicityScorerV1.
Notes d’utilisation
- La méthode
scoreattend qu’une chaîne de caractères soit passée au paramètreoutput.- Le modèle renvoie des scores de
0à3dans cinq catégories différentes :- Si la somme de ces scores dépasse
total_threshold(valeur par défaut :5), l’entrée est signalée comme toxique. - Si une catégorie obtient à elle seule un score supérieur à
category_threshold(par défaut :2), l’entrée est signalée comme toxique.
- Si la somme de ces scores dépasse
- Pour rendre le filtrage plus agressif, remplacez
category_thresholdoutotal_thresholdlors de l’initialisation.
- Le modèle renvoie des scores de
Exemple d’utilisation
WeaveHallucinationScorerV1
WeaveHallucinationScorerV1 utilise le modèle HHEM 2.1 open source de Vectara. Pour plus d’informations, voir le rapport W&B WeaveHallucinationScorerV1.
Notes d’utilisation
- La méthode
scoreattend des valeurs pour les paramètresqueryetoutput.- Le contexte doit être passé au paramètre
output(sous forme de chaîne ou de liste de chaînes). - Un score de sortie plus élevé indique une probabilité plus forte d’hallucination dans la sortie.
- Le paramètre
thresholdest défini, mais peut être redéfini lors de l’initialisation.
- Le contexte doit être passé au paramètre
Exemple d’utilisation
WeaveContextRelevanceScorerV1
WeaveContextRelevanceScorerV1 utilise un modèle deberta-small-long-nli affiné sur tasksource. Pour plus de détails, voir le W&B rapport WeaveContextRelevanceScorerV1.
Notes d’utilisation
- La méthode
scoreattend des valeurs pourqueryetoutput.- Le contexte doit être transmis dans le paramètre
output(chaîne ou liste de chaînes). - Un score plus élevé indique plus fortement que le contexte est pertinent pour la requête.
- Vous pouvez passer
verbose=Trueà la méthodescorepour obtenir des scores pour chaque segment.
- Le contexte doit être transmis dans le paramètre
Exemple d’utilisation
WeaveCoherenceScorerV1
WeaveCoherenceScorerV1 utilise un modèle deberta-small-long-nli affiné de tasksource. Pour plus d’informations, voir le W&B rapport de WeaveCoherenceScorerV1.
Notes d’utilisation
- La méthode
scoreattend du texte dans les paramètresqueryetoutput.- Plus le score de sortie est élevé, plus la prédiction de cohérence est forte.
Exemple d’utilisation
WeaveFluencyScorerV1
WeaveFluencyScorerV1 utilise un modèle ModernBERT-base affiné par AnswerDotAI. Pour plus d’informations, voir le rapport W&B WeaveFluencyScorerV1.
Notes d’utilisation
- La méthode
scoreattend qu’un texte soit transmis au paramètreoutput.- Un score plus élevé en sortie indique une meilleure fluidité.
Exemple d’utilisation
WeaveTrustScorerV1
WeaveTrustScorerV1 est un scorer composite pour les systèmes RAG qui évalue la fiabilité des résultats du modèle en regroupant d’autres évaluateurs en deux catégories : Critical et Advisory. En fonction du score composite, il renvoie un niveau de confiance :
high: Aucun problème détectémedium: Seuls des problèmes Advisory sont détectéslow: Des problèmes Critical sont détectés ou l’entrée est vide
low. Si un évaluateur Advisory n’est pas satisfait, le niveau de confiance est medium.
- Critical:
-
WeaveToxicityScorerV1 -
WeaveHallucinationScorerV1 -
WeaveContextRelevanceScorerV1 -
Advisory:
WeaveFluencyScorerV1WeaveCoherenceScorerV1
-
Notes d’utilisation
- Ce scorer est conçu pour évaluer les pipelines RAG.
- Il nécessite les clés
query,contextetoutputpour calculer correctement le score.
- Il nécessite les clés
Exemple d’utilisation
PresidioScorer
inputs et les sorties de votre système d’IA.
Notes d’utilisation
- Pour spécifier certains types d’entités, comme les adresses e-mail ou les numéros de téléphone, passez une liste d’entités Presidio au paramètre
selected_entities. Sinon, Presidio détectera tous les types d’entités de sa liste par défaut.- Pour détecter certains types d’entités, comme les adresses e-mail ou les numéros de téléphone, passez une liste au paramètre
selected_entities. - Vous pouvez passer des recognizers personnalisés via le paramètre
custom_recognizers, sous la forme d’une liste d’instancespresidio.EntityRecognizer. - Pour traiter du texte non anglais, utilisez le paramètre
languagepour préciser la langue.
- Pour détecter certains types d’entités, comme les adresses e-mail ou les numéros de téléphone, passez une liste au paramètre