Catalogue des benchmarks d’évaluation

Les jobs d’Évaluation LLM sont en Aperçu sur W&B Multi-tenant Cloud. Les ressources de calcul sont gratuites pendant la période d’aperçu. En savoir plus

Cette page répertorie les benchmarks d’évaluation proposés par LLM Evaluation Jobs, par catégorie. Pour exécuter certains benchmarks, un administrateur d’équipe doit ajouter les clés API requises comme secrets au niveau de l’équipe. N’importe quel membre de l’équipe peut ensuite spécifier le secret lors de la configuration d’un job d’évaluation.

Si un benchmark affiche true dans la colonne OpenAI Model Scorer, il utilise des modèles OpenAI pour le scoring. Un administrateur d’organisation ou d’équipe doit ajouter une clé API OpenAI comme secret d’équipe. Lorsque vous configurez un job d’évaluation avec un benchmark soumis à cette exigence, définissez le champ Scorer API key sur ce secret.
- Si un benchmark contient un lien dans la colonne jeu de données Hugging Face à accès restreint, il nécessite l’accès à un jeu de données Hugging Face à accès restreint. Un administrateur d’organisation ou d’équipe doit demander l’accès au jeu de données sur Hugging Face, créer un jeton d’accès utilisateur Hugging Face et configurer un secret d’équipe avec la clé d’accès. Lorsque vous configurez un benchmark soumis à cette exigence, définissez le champ Hugging Face Token sur ce secret.

Connaissances

Évaluez les connaissances factuelles dans divers domaines, comme la science, le langage et le raisonnement général.

Évaluation	ID de tâche	OpenAI Scorer	Jeu de données Hugging Face à accès restreint	Description
BoolQ	`boolq`			Questions booléennes oui/non à partir de requêtes en langage naturel
GPQA Diamond	`gpqa_diamond`			Questions scientifiques de niveau supérieur (sous-ensemble de la plus haute qualité)
HLE	`hle`		Oui	Benchmark d’évaluation au niveau humain
Lingoly	`lingoly`		Oui	Problèmes d’olympiade de linguistique
Lingoly Too	`lingoly_too`		Oui	Problèmes de linguistique plus avancés
MMIU	`mmiu`			Benchmark Massive Multitask Language Understanding
MMLU (0-shot)	`mmlu_0_shot`			Massive Multitask Language Understanding sans exemples
MMLU (5-shot)	`mmlu_5_shot`			Massive Multitask Language Understanding avec 5 exemples
MMLU-Pro	`mmlu_pro`			Version plus difficile de MMLU
ONET M6	`onet_m6`			Benchmark de connaissances professionnelles
PAWS	`paws`			Substitution adversariale de mots dans des paraphrases
SevenLLM MCQ (English)	`sevenllm_mcq_en`			Questions à choix multiple en anglais
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			Questions à choix multiple en chinois
SevenLLM QA (English)	`sevenllm_qa_en`			Questions-réponses en anglais
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			Questions-réponses en chinois
SimpleQA	`simpleqa`	Oui		Questions-réponses factuelles simples
SimpleQA Verified	`simpleqa_verified`			Sous-ensemble vérifié de SimpleQA avec des réponses validées
WorldSense	`worldsense`			Évalue la compréhension des connaissances du monde et du sens commun

Raisonnement

Évaluez les capacités de pensée logique, de résolution de problèmes et de raisonnement de bon sens.

Évaluation	ID de tâche	Description
AGIE AQUA-RAT	`agie_aqua_rat`	Questions-réponses en algèbre avec justifications
AGIE LogiQA (English)	`agie_logiqa_en`	Questions de raisonnement logique en anglais
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	Problèmes de raisonnement analytique du LSAT (jeux de logique)
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	Questions de raisonnement logique du LSAT
ARC Challenge	`arc_challenge`	Questions scientifiques difficiles nécessitant du raisonnement (AI2 Reasoning Challenge)
ARC Easy	`arc_easy`	Ensemble plus facile de questions scientifiques du jeu de données ARC
BBH	`bbh`	BIG-Bench Hard : tâches difficiles issues de BIG-Bench
CoCoNot	`coconot`	Benchmark de raisonnement contrefactuel fondé sur le bon sens
CommonsenseQA	`commonsense_qa`	Questions de raisonnement de bon sens
HellaSwag	`hellaswag`	Inférence en langage naturel fondée sur le bon sens
MUSR	`musr`	Benchmark de raisonnement en plusieurs étapes
PIQA	`piqa`	Raisonnement de bon sens sur le monde physique
WinoGrande	`winogrande`	Raisonnement de bon sens par résolution de pronoms

Mathématiques

Évaluez la capacité à résoudre des problèmes mathématiques à différents niveaux de difficulté, de l’école primaire jusqu’aux problèmes de niveau concours.

Évaluation	ID de tâche	Description
AGIE Math	`agie_math`	Raisonnement mathématique avancé issu de la suite de benchmarks AGIE
AGIE SAT Math	`agie_sat_math`	Questions de mathématiques du SAT
AIME 2024	`aime2024`	Problèmes de l’American Invitational Mathematics Examination de 2024
AIME 2025	`aime2025`	Problèmes de l’American Invitational Mathematics Examination de 2025
GSM8K	`gsm8k`	Grade School Math 8K : problèmes de mathématiques en plusieurs étapes
InfiniteBench Math Calc	`infinite_bench_math_calc`	Calculs mathématiques dans des contextes longs
InfiniteBench Math Find	`infinite_bench_math_find`	Détection de motifs mathématiques dans des contextes longs
MATH	`math`	Problèmes de mathématiques de niveau concours
MGSM	`mgsm`	Grade School Math multilingue

Code

Évaluez les capacités en programmation et en développement logiciel, comme le débogage, la prédiction d’exécution du code et l’appel de fonctions.

Évaluation	ID de tâche	Description
BFCL	`bfcl`	Berkeley Function Calling Leaderboard : évalue les capacités d’appel de fonctions et d’utilisation d’outils
InfiniteBench Code Debug	`infinite_bench_code_debug`	Tâches de débogage de code sur de longs contextes
InfiniteBench Code Run	`infinite_bench_code_run`	Prédiction de l’exécution de code sur de longs contextes

Lecture

Évaluez la compréhension de l’écrit et l’extraction d’informations à partir de textes complexes.

Évaluation	ID de tâche	Description
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	Passages et questions de compréhension écrite du LSAT
AGIE SAT English	`agie_sat_en`	Questions de lecture et d’écriture du SAT avec passages
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	Questions d’anglais du SAT sans passages associés
DROP	`drop`	Discrete Reasoning Over Paragraphs : compréhension écrite nécessitant un raisonnement numérique
RACE-H	`race_h`	Compréhension écrite à partir d’examens d’anglais (niveau de difficulté élevé)
SQuAD	`squad`	Stanford Question Answering Dataset : Questions-réponses extractives sur des articles Wikipédia

Contexte long

Évaluez la capacité à traiter et à raisonner dans des contextes étendus, y compris la récupération d’informations et la reconnaissance de motifs.

Évaluation	ID de tâche	Description
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	Récupération de paires clé-valeur dans de longs contextes
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	Questions à choix multiple sur de longs ouvrages
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	Questions-réponses sur de longs dialogues
InfiniteBench Number String	`infinite_bench_number_string`	Reconnaissance de motifs numériques dans de longues séquences
InfiniteBench Passkey	`infinite_bench_passkey`	Récupération d’informations à partir d’un long contexte
NIAH	`niah`	Aiguille dans une botte de foin : test de récupération en contexte long

Sécurité

Évaluez l’alignement, la détection des biais, la résistance aux contenus dangereux et la véracité.

Évaluation	ID de tâche	OpenAI Scorer	jeu de données HF à accès restreint	Description
AgentHarm	`agentharm`	Oui		Teste la résistance du modèle aux comportements nuisibles des agents et aux scénarios d’usage abusif
AgentHarm Benign	`agentharm_benign`	Oui		Référence bénigne pour AgentHarm permettant de mesurer les taux de faux positifs
Agentic Misalignment	`agentic_misalignment`			Évalue un possible désalignement dans le comportement agentique
AHB	`ahb`			Agent Harmful Behavior : teste la résistance aux actions agentiques nuisibles
AIRBench	`air_bench`			Teste la résistance aux instructions adversariales
BBEH	`bbeh`			Benchmark de biais pour évaluer les comportements nuisibles
BBEH Mini	`bbeh_mini`			Version réduite du benchmark BBEH
BBQ	`bbq`			Benchmark de biais pour les questions-réponses
BOLD	`bold`			Jeu de données sur les biais dans la génération de texte libre
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			Teste la résistance aux attaques d’injection visuelle de prompt
Make Me Pay	`make_me_pay`			Teste la résistance aux scénarios d’arnaque et de fraude financière
MASK	`mask`	Oui	Oui	Teste la gestion des informations sensibles par le modèle
Personality BFI	`personality_BFI`			Évaluation des traits de personnalité selon le modèle Big Five
Personality TRAIT	`personality_TRAIT`		Oui	Évaluation complète des traits de personnalité
SOSBench	`sosbench`	Oui		Test de résistance en matière de sécurité et de supervision
StereoSet	`stereoset`			Mesure les biais stéréotypés dans les modèles de langage
StrongREJECT	`strong_reject`			Teste la capacité du modèle à rejeter les requêtes dangereuses
Sycophancy	`sycophancy`			Évalue la tendance à adopter un comportement flagorneur
TruthfulQA	`truthfulqa`			Teste la véracité du modèle et sa résistance aux fausses informations
UCCB	`uccb`			Benchmark de classification des contenus dangereux
WMDP Bio	`wmdp_bio`			Teste les connaissances dangereuses en biologie
WMDP Chem	`wmdp_chem`			Teste les connaissances dangereuses en chimie
WMDP Cyber	`wmdp_cyber`			Teste les connaissances dangereuses en cybersécurité
XSTest	`xstest`	Oui		Test de sécurité extrême pour détecter les refus excessifs

Domaine spécialisé

Évaluez les connaissances spécialisées en médecine, chimie, droit, biologie et dans d’autres domaines professionnels.

Évaluation	ID de tâche	OpenAI Scorer	Description
ChemBench	`chembench`		Benchmark de connaissances en chimie et de résolution de problèmes
HealthBench	`healthbench`	Yes	Évaluation des connaissances en santé et en médecine
HealthBench Consensus	`healthbench_consensus`	Yes	Questions de santé avec consensus d’experts
HealthBench Hard	`healthbench_hard`	Yes	Scénarios de santé complexes
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		Planification d’expériences en laboratoire et clonage
LabBench DBQA	`lab_bench_dbqa`		Questions-réponses sur des bases de données pour des scénarios de laboratoire
LabBench FigQA	`lab_bench_figqa`		Interprétation de figures dans des contextes scientifiques
LabBench LitQA	`lab_bench_litqa`		Questions-réponses basées sur la littérature scientifique pour la recherche
LabBench ProtocolQA	`lab_bench_protocolqa`		Compréhension des protocoles de laboratoire
LabBench SeqQA	`lab_bench_seqqa`		Questions d’analyse de séquences biologiques
LabBench SuppQA	`lab_bench_suppqa`		Interprétation de documents complémentaires
LabBench TableQA	`lab_bench_tableqa`		Interprétation de tableaux dans des articles scientifiques
MedQA	`medqa`		Questions d’examen d’autorisation d’exercice en médecine
PubMedQA	`pubmedqa`		Questions-réponses biomédicales à partir de résumés d’articles scientifiques
SEC-QA v1	`sec_qa_v1`		Questions-réponses sur les documents déposés auprès de la SEC
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		SEC-QA avec 5 exemples
SEC-QA v2	`sec_qa_v2`		Benchmark mis à jour des documents déposés auprès de la SEC
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		SEC-QA v2 avec 5 exemples

Multimodal

Évaluez la compréhension visuelle et du langage en combinant des données visuelles et textuelles.

Évaluation	ID de tâche	Description
DocVQA	`docvqa`	Questions-réponses visuelles sur des documents : questions sur des images de documents
MathVista	`mathvista`	Raisonnement mathématique dans des contextes visuels combinant vision et mathématiques
MMMU Multiple Choice	`mmmu_multiple_choice`	Compréhension multimodale au format à choix multiple
MMMU Open	`mmmu_open`	Compréhension multimodale avec des réponses ouvertes
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	Tâches de reconnaissance d’attributs visuels
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	Raisonnement spatial à partir d’entrées visuelles

Suivi d’instructions

Évalue le respect d’instructions spécifiques et des exigences de mise en forme.

Évaluation	ID de tâche	OpenAI Scorer	jeu de données HF à accès restreint	Description
IFEval	`ifeval`			Teste la capacité à suivre des instructions avec précision

Système

Validation de base du système et vérifications préalables.

Évaluation	ID de tâche	OpenAI Scorer	jeu de données HF à accès restreint	Description
Pré-vérification	`pre_flight`			Vérification de base du système et test de validation

Étapes suivantes

Évaluer un point de contrôle du modèle
Évaluer un modèle hébergé via API
Voir les détails de benchmarks spécifiques sur AISI Inspect Evals

Guides

Intégrations

Référence

Connaissances

Raisonnement

Mathématiques

Code

Lecture

Contexte long

Sécurité

Domaine spécialisé

Multimodal

Suivi d’instructions

Système

Étapes suivantes

Guides

Intégrations

Référence

​Connaissances

​Raisonnement

​Mathématiques

​Code

​Lecture

​Contexte long

​Sécurité

​Domaine spécialisé

​Multimodal

​Suivi d’instructions

​Système

​Étapes suivantes

Connaissances

Raisonnement

Mathématiques

Code

Lecture

Contexte long

Sécurité

Domaine spécialisé

Multimodal

Suivi d’instructions

Système

Étapes suivantes