Les évaluateurs locaux sont disponibles uniquement pour le SDK Python de Weave. Ils ne sont pas encore disponibles pour le SDK TypeScript de Weave.Pour utiliser les évaluateurs Weave en TypeScript, voir les évaluateurs basés sur des fonctions.
Installation
model_id.
Voir les modèles pris en charge ici.
HallucinationFreeScorer
- Personnalisez les champs
system_promptetuser_promptdu scorer pour définir ce que signifie pour vous une « hallucination ».
- La méthode
scoreattend une colonne d’entrée nomméecontext. Si votre jeu de données utilise un autre nom, utilisez l’attributcolumn_mappour associercontextà la colonne du jeu de données.
SummarizationScorer
- Densité d’entités : vérifie le ratio entre les entités uniques (comme des noms, des lieux ou des objets) mentionnées dans le résumé et le nombre total de mots qu’il contient, afin d’estimer sa « densité d’information ». Il utilise un LLM pour extraire les entités. Cette approche est similaire à l’utilisation de la densité d’entités dans le Chain of Density paper.
- Évaluation de la qualité : un évaluateur LLM classe le résumé comme
poor,okouexcellent. Ces appréciations sont ensuite converties en scores (0.0 pour poor, 0.5 pour ok et 1.0 pour excellent) pour l’évaluation agrégée des performances.
- Ajustez
summarization_evaluation_system_promptetsummarization_evaluation_promptpour adapter le processus d’évaluation.
- Le scorer utilise litellm en interne.
- La méthode
scoreattend que le texte original (celui qui est résumé) soit présent dans la colonneinput. Utilisezcolumn_mapsi votre jeu de données utilise un autre nom.
OpenAIModerationScorer
OpenAIModerationScorer utilise l’API de modération d’OpenAI pour vérifier si la sortie générée par le système d’IA contient du contenu interdit, comme des discours haineux ou du contenu explicite.
- Envoie la sortie de l’IA à l’endpoint OpenAI Moderation et renvoie une réponse structurée indiquant si le contenu a été signalé.
EmbeddingSimilarityScorer
EmbeddingSimilarityScorer calcule la similarité cosinus entre les embeddings de la sortie du système d’IA et ceux d’un texte cible issu de votre jeu de données. Il est utile pour mesurer dans quelle mesure la sortie de l’IA ressemble à un texte de référence.
threshold(float) : Le score minimal de similarité cosinus (entre -1 et 1) requis pour considérer que les deux textes sont similaires (valeur par défaut :0.5).
EmbeddingSimilarityScorer dans le contexte d’une évaluation :
ValidJSONScorer
ValidJSONScorer vérifie si la sortie du système d’IA est un JSON valide. Ce scorer est utile lorsque vous attendez une sortie au format JSON et devez en vérifier la validité.
ValidXMLScorer
ValidXMLScorer vérifie si la sortie du système d’IA est du XML valide. Il est utile lorsque des sorties au format XML sont attendues.
PydanticScorer
PydanticScorer valide la sortie du système d’IA par rapport à un modèle Pydantic afin de garantir qu’elle respecte un schéma ou une structure de données donnés.
RAGAS - ContextEntityRecallScorer
ContextEntityRecallScorer estime le rappel du contexte en extrayant les entités à la fois de la sortie du système d’IA et du contexte fourni, puis en calculant le score de rappel. Il s’appuie sur la bibliothèque d’évaluation RAGAS.
- Utilise un LLM pour extraire les entités uniques de la sortie et du contexte, puis calcule le rappel.
- Le rappel indique la proportion d’entités importantes du contexte présentes dans la sortie.
- Renvoie un dictionnaire contenant le score de rappel.
- Nécessite une colonne
contextdans votre jeu de données. Utilisez l’attributcolumn_mapsi le nom de la colonne est différent.
RAGAS - ContextRelevancyScorer
ContextRelevancyScorer évalue la pertinence du contexte fourni par rapport à la sortie du système d’IA. Il s’appuie sur la bibliothèque d’évaluation RAGAS.
- Utilise un LLM pour évaluer la pertinence du contexte par rapport à la sortie sur une échelle de 0 à 1.
- Renvoie un dictionnaire contenant
relevancy_score.
- Nécessite une colonne
contextdans votre jeu de données. Utilisez l’attributcolumn_mapsi le nom de la colonne est différent. - Personnalisez le
relevancy_promptpour définir comment la pertinence est évaluée.
openai/gpt-4o et openai/text-embedding-3-small. Si vous souhaitez tester d’autres fournisseurs, vous pouvez modifier le champ model_id pour utiliser un autre modèle. Par exemple, pour utiliser un modèle Anthropic :