Les jobs d’Évaluation LLM sont en Aperçu sur W&B Multi-tenant Cloud. Les ressources de calcul sont gratuites pendant la période d’aperçu. En savoir plus
- Si un benchmark affiche
truedans la colonne OpenAI Model Scorer, il utilise des modèles OpenAI pour le scoring. Un administrateur d’organisation ou d’équipe doit ajouter une clé API OpenAI comme secret d’équipe. Lorsque vous configurez un job d’évaluation avec un benchmark soumis à cette exigence, définissez le champ Scorer API key sur ce secret.- Si un benchmark contient un lien dans la colonne jeu de données Hugging Face à accès restreint, il nécessite l’accès à un jeu de données Hugging Face à accès restreint. Un administrateur d’organisation ou d’équipe doit demander l’accès au jeu de données sur Hugging Face, créer un jeton d’accès utilisateur Hugging Face et configurer un secret d’équipe avec la clé d’accès. Lorsque vous configurez un benchmark soumis à cette exigence, définissez le champ Hugging Face Token sur ce secret.
Connaissances
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données Hugging Face à accès restreint | Description |
|---|---|---|---|---|
| BoolQ | boolq | Questions booléennes oui/non à partir de requêtes en langage naturel | ||
| GPQA Diamond | gpqa_diamond | Questions scientifiques de niveau supérieur (sous-ensemble de la plus haute qualité) | ||
| HLE | hle | Oui | Benchmark d’évaluation au niveau humain | |
| Lingoly | lingoly | Oui | Problèmes d’olympiade de linguistique | |
| Lingoly Too | lingoly_too | Oui | Problèmes de linguistique plus avancés | |
| MMIU | mmiu | Benchmark Massive Multitask Language Understanding | ||
| MMLU (0-shot) | mmlu_0_shot | Massive Multitask Language Understanding sans exemples | ||
| MMLU (5-shot) | mmlu_5_shot | Massive Multitask Language Understanding avec 5 exemples | ||
| MMLU-Pro | mmlu_pro | Version plus difficile de MMLU | ||
| ONET M6 | onet_m6 | Benchmark de connaissances professionnelles | ||
| PAWS | paws | Substitution adversariale de mots dans des paraphrases | ||
| SevenLLM MCQ (English) | sevenllm_mcq_en | Questions à choix multiple en anglais | ||
| SevenLLM MCQ (Chinese) | sevenllm_mcq_zh | Questions à choix multiple en chinois | ||
| SevenLLM QA (English) | sevenllm_qa_en | Questions-réponses en anglais | ||
| SevenLLM QA (Chinese) | sevenllm_qa_zh | Questions-réponses en chinois | ||
| SimpleQA | simpleqa | Oui | Questions-réponses factuelles simples | |
| SimpleQA Verified | simpleqa_verified | Sous-ensemble vérifié de SimpleQA avec des réponses validées | ||
| WorldSense | worldsense | Évalue la compréhension des connaissances du monde et du sens commun |
Raisonnement
| Évaluation | ID de tâche | OpenAI Scorer | jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| AGIE AQUA-RAT | agie_aqua_rat | Questions-réponses en algèbre avec justifications | ||
| AGIE LogiQA (English) | agie_logiqa_en | Questions de raisonnement logique en anglais | ||
| AGIE LSAT Analytical Reasoning | agie_lsat_ar | Problèmes de raisonnement analytique du LSAT (jeux de logique) | ||
| AGIE LSAT Logical Reasoning | agie_lsat_lr | Questions de raisonnement logique du LSAT | ||
| ARC Challenge | arc_challenge | Questions scientifiques difficiles nécessitant du raisonnement (AI2 Reasoning Challenge) | ||
| ARC Easy | arc_easy | Ensemble plus facile de questions scientifiques du jeu de données ARC | ||
| BBH | bbh | BIG-Bench Hard : tâches difficiles issues de BIG-Bench | ||
| CoCoNot | coconot | Benchmark de raisonnement contrefactuel fondé sur le bon sens | ||
| CommonsenseQA | commonsense_qa | Questions de raisonnement de bon sens | ||
| HellaSwag | hellaswag | Inférence en langage naturel fondée sur le bon sens | ||
| MUSR | musr | Benchmark de raisonnement en plusieurs étapes | ||
| PIQA | piqa | Raisonnement de bon sens sur le monde physique | ||
| WinoGrande | winogrande | Raisonnement de bon sens par résolution de pronoms |
Mathématiques
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| AGIE Math | agie_math | Raisonnement mathématique avancé issu de la suite de benchmarks AGIE | ||
| AGIE SAT Math | agie_sat_math | Questions de mathématiques du SAT | ||
| AIME 2024 | aime2024 | Problèmes de l’American Invitational Mathematics Examination de 2024 | ||
| AIME 2025 | aime2025 | Problèmes de l’American Invitational Mathematics Examination de 2025 | ||
| GSM8K | gsm8k | Grade School Math 8K : problèmes de mathématiques en plusieurs étapes | ||
| InfiniteBench Math Calc | infinite_bench_math_calc | Calculs mathématiques dans des contextes longs | ||
| InfiniteBench Math Find | infinite_bench_math_find | Détection de motifs mathématiques dans des contextes longs | ||
| MATH | math | Problèmes de mathématiques de niveau concours | ||
| MGSM | mgsm | Grade School Math multilingue |
Code
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| BFCL | bfcl | Berkeley Function Calling Leaderboard : évalue les capacités d’appel de fonctions et d’utilisation d’outils | ||
| InfiniteBench Code Debug | infinite_bench_code_debug | Tâches de débogage de code sur de longs contextes | ||
| InfiniteBench Code Run | infinite_bench_code_run | Prédiction de l’exécution de code sur de longs contextes |
Lecture
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| AGIE LSAT Reading Comprehension | agie_lsat_rc | Passages et questions de compréhension écrite du LSAT | ||
| AGIE SAT English | agie_sat_en | Questions de lecture et d’écriture du SAT avec passages | ||
| AGIE SAT English (No Passage) | agie_sat_en_without_passage | Questions d’anglais du SAT sans passages associés | ||
| DROP | drop | Discrete Reasoning Over Paragraphs : compréhension écrite nécessitant un raisonnement numérique | ||
| RACE-H | race_h | Compréhension écrite à partir d’examens d’anglais (niveau de difficulté élevé) | ||
| SQuAD | squad | Stanford Question Answering Dataset : Questions-réponses extractives sur des articles Wikipédia |
Contexte long
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| InfiniteBench KV Retrieval | infinite_bench_kv_retrieval | Récupération de paires clé-valeur dans de longs contextes | ||
| InfiniteBench LongBook (English) | infinite_bench_longbook_choice_eng | Questions à choix multiple sur de longs ouvrages | ||
| InfiniteBench LongDialogue QA (English) | infinite_bench_longdialogue_qa_eng | Questions-réponses sur de longs dialogues | ||
| InfiniteBench Number String | infinite_bench_number_string | Reconnaissance de motifs numériques dans de longues séquences | ||
| InfiniteBench Passkey | infinite_bench_passkey | Récupération d’informations à partir d’un long contexte | ||
| NIAH | niah | Aiguille dans une botte de foin : test de récupération en contexte long |
Sécurité
| Évaluation | ID de tâche | OpenAI Scorer | jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| AgentHarm | agentharm | Oui | Teste la résistance du modèle aux comportements nuisibles des agents et aux scénarios d’usage abusif | |
| AgentHarm Benign | agentharm_benign | Oui | Référence bénigne pour AgentHarm permettant de mesurer les taux de faux positifs | |
| Agentic Misalignment | agentic_misalignment | Évalue un possible désalignement dans le comportement agentique | ||
| AHB | ahb | Agent Harmful Behavior : teste la résistance aux actions agentiques nuisibles | ||
| AIRBench | air_bench | Teste la résistance aux instructions adversariales | ||
| BBEH | bbeh | Benchmark de biais pour évaluer les comportements nuisibles | ||
| BBEH Mini | bbeh_mini | Version réduite du benchmark BBEH | ||
| BBQ | bbq | Benchmark de biais pour les questions-réponses | ||
| BOLD | bold | Jeu de données sur les biais dans la génération de texte libre | ||
| CYSE3 Visual Prompt Injection | cyse3_visual_prompt_injection | Teste la résistance aux attaques d’injection visuelle de prompt | ||
| Make Me Pay | make_me_pay | Teste la résistance aux scénarios d’arnaque et de fraude financière | ||
| MASK | mask | Oui | Oui | Teste la gestion des informations sensibles par le modèle |
| Personality BFI | personality_BFI | Évaluation des traits de personnalité selon le modèle Big Five | ||
| Personality TRAIT | personality_TRAIT | Oui | Évaluation complète des traits de personnalité | |
| SOSBench | sosbench | Oui | Test de résistance en matière de sécurité et de supervision | |
| StereoSet | stereoset | Mesure les biais stéréotypés dans les modèles de langage | ||
| StrongREJECT | strong_reject | Teste la capacité du modèle à rejeter les requêtes dangereuses | ||
| Sycophancy | sycophancy | Évalue la tendance à adopter un comportement flagorneur | ||
| TruthfulQA | truthfulqa | Teste la véracité du modèle et sa résistance aux fausses informations | ||
| UCCB | uccb | Benchmark de classification des contenus dangereux | ||
| WMDP Bio | wmdp_bio | Teste les connaissances dangereuses en biologie | ||
| WMDP Chem | wmdp_chem | Teste les connaissances dangereuses en chimie | ||
| WMDP Cyber | wmdp_cyber | Teste les connaissances dangereuses en cybersécurité | ||
| XSTest | xstest | Oui | Test de sécurité extrême pour détecter les refus excessifs |
Domaine spécialisé
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| ChemBench | chembench | Benchmark de connaissances en chimie et de résolution de problèmes | ||
| HealthBench | healthbench | Yes | Évaluation des connaissances en santé et en médecine | |
| HealthBench Consensus | healthbench_consensus | Yes | Questions de santé avec consensus d’experts | |
| HealthBench Hard | healthbench_hard | Yes | Scénarios de santé complexes | |
| LabBench Cloning Scenarios | lab_bench_cloning_scenarios | Planification d’expériences en laboratoire et clonage | ||
| LabBench DBQA | lab_bench_dbqa | Questions-réponses sur des bases de données pour des scénarios de laboratoire | ||
| LabBench FigQA | lab_bench_figqa | Interprétation de figures dans des contextes scientifiques | ||
| LabBench LitQA | lab_bench_litqa | Questions-réponses basées sur la littérature scientifique pour la recherche | ||
| LabBench ProtocolQA | lab_bench_protocolqa | Compréhension des protocoles de laboratoire | ||
| LabBench SeqQA | lab_bench_seqqa | Questions d’analyse de séquences biologiques | ||
| LabBench SuppQA | lab_bench_suppqa | Interprétation de documents complémentaires | ||
| LabBench TableQA | lab_bench_tableqa | Interprétation de tableaux dans des articles scientifiques | ||
| MedQA | medqa | Questions d’examen d’autorisation d’exercice en médecine | ||
| PubMedQA | pubmedqa | Questions-réponses biomédicales à partir de résumés d’articles scientifiques | ||
| SEC-QA v1 | sec_qa_v1 | Questions-réponses sur les documents déposés auprès de la SEC | ||
| SEC-QA v1 (5-shot) | sec_qa_v1_5_shot | SEC-QA avec 5 exemples | ||
| SEC-QA v2 | sec_qa_v2 | Benchmark mis à jour des documents déposés auprès de la SEC | ||
| SEC-QA v2 (5-shot) | sec_qa_v2_5_shot | SEC-QA v2 avec 5 exemples |
Multimodal
| Évaluation | ID de tâche | OpenAI Scorer | Jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| DocVQA | docvqa | Questions-réponses visuelles sur des documents : questions sur des images de documents | ||
| MathVista | mathvista | Raisonnement mathématique dans des contextes visuels combinant vision et mathématiques | ||
| MMMU Multiple Choice | mmmu_multiple_choice | Compréhension multimodale au format à choix multiple | ||
| MMMU Open | mmmu_open | Compréhension multimodale avec des réponses ouvertes | ||
| V*Star Bench Attribute Recognition | vstar_bench_attribute_recognition | Tâches de reconnaissance d’attributs visuels | ||
| V*Star Bench Spatial Relationship | vstar_bench_spatial_relationship_reasoning | Raisonnement spatial à partir d’entrées visuelles |
Suivi d’instructions
| Évaluation | ID de tâche | OpenAI Scorer | jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| IFEval | ifeval | Teste la capacité à suivre des instructions avec précision |
Système
| Évaluation | ID de tâche | OpenAI Scorer | jeu de données HF à accès restreint | Description |
|---|---|---|---|---|
| Pré-vérification | pre_flight | Vérification de base du système et test de validation |
Étapes suivantes
- Évaluer un point de contrôle du modèle
- Évaluer un modèle hébergé via API
- Voir les détails de benchmarks spécifiques sur AISI Inspect Evals