Passer au contenu principal
Les jobs d’Évaluation LLM sont en Aperçu sur W&B Multi-tenant Cloud. Les ressources de calcul sont gratuites pendant la période d’aperçu. En savoir plus
Cette page répertorie les benchmarks d’évaluation proposés par LLM Evaluation Jobs, par catégorie. Pour exécuter certains benchmarks, un administrateur d’équipe doit ajouter les clés API requises comme secrets au niveau de l’équipe. N’importe quel membre de l’équipe peut ensuite spécifier le secret lors de la configuration d’un job d’évaluation.
  • Si un benchmark affiche true dans la colonne OpenAI Model Scorer, il utilise des modèles OpenAI pour le scoring. Un administrateur d’organisation ou d’équipe doit ajouter une clé API OpenAI comme secret d’équipe. Lorsque vous configurez un job d’évaluation avec un benchmark soumis à cette exigence, définissez le champ Scorer API key sur ce secret.
    • Si un benchmark contient un lien dans la colonne jeu de données Hugging Face à accès restreint, il nécessite l’accès à un jeu de données Hugging Face à accès restreint. Un administrateur d’organisation ou d’équipe doit demander l’accès au jeu de données sur Hugging Face, créer un jeton d’accès utilisateur Hugging Face et configurer un secret d’équipe avec la clé d’accès. Lorsque vous configurez un benchmark soumis à cette exigence, définissez le champ Hugging Face Token sur ce secret.

Connaissances

Évaluez les connaissances factuelles dans divers domaines, comme la science, le langage et le raisonnement général.
ÉvaluationID de tâche
OpenAI Scorer
Jeu de données Hugging Face à accès restreintDescription
BoolQboolqQuestions booléennes oui/non à partir de requêtes en langage naturel
GPQA Diamondgpqa_diamondQuestions scientifiques de niveau supérieur (sous-ensemble de la plus haute qualité)
HLEhleOuiBenchmark d’évaluation au niveau humain
LingolylingolyOuiProblèmes d’olympiade de linguistique
Lingoly Toolingoly_tooOuiProblèmes de linguistique plus avancés
MMIUmmiuBenchmark Massive Multitask Language Understanding
MMLU (0-shot)mmlu_0_shotMassive Multitask Language Understanding sans exemples
MMLU (5-shot)mmlu_5_shotMassive Multitask Language Understanding avec 5 exemples
MMLU-Prommlu_proVersion plus difficile de MMLU
ONET M6onet_m6Benchmark de connaissances professionnelles
PAWSpawsSubstitution adversariale de mots dans des paraphrases
SevenLLM MCQ (English)sevenllm_mcq_enQuestions à choix multiple en anglais
SevenLLM MCQ (Chinese)sevenllm_mcq_zhQuestions à choix multiple en chinois
SevenLLM QA (English)sevenllm_qa_enQuestions-réponses en anglais
SevenLLM QA (Chinese)sevenllm_qa_zhQuestions-réponses en chinois
SimpleQAsimpleqaOuiQuestions-réponses factuelles simples
SimpleQA Verifiedsimpleqa_verifiedSous-ensemble vérifié de SimpleQA avec des réponses validées
WorldSenseworldsenseÉvalue la compréhension des connaissances du monde et du sens commun

Raisonnement

Évaluez les capacités de pensée logique, de résolution de problèmes et de raisonnement de bon sens.
ÉvaluationID de tâcheOpenAI Scorerjeu de données HF à accès restreintDescription
AGIE AQUA-RATagie_aqua_ratQuestions-réponses en algèbre avec justifications
AGIE LogiQA (English)agie_logiqa_enQuestions de raisonnement logique en anglais
AGIE LSAT Analytical Reasoningagie_lsat_arProblèmes de raisonnement analytique du LSAT (jeux de logique)
AGIE LSAT Logical Reasoningagie_lsat_lrQuestions de raisonnement logique du LSAT
ARC Challengearc_challengeQuestions scientifiques difficiles nécessitant du raisonnement (AI2 Reasoning Challenge)
ARC Easyarc_easyEnsemble plus facile de questions scientifiques du jeu de données ARC
BBHbbhBIG-Bench Hard : tâches difficiles issues de BIG-Bench
CoCoNotcoconotBenchmark de raisonnement contrefactuel fondé sur le bon sens
CommonsenseQAcommonsense_qaQuestions de raisonnement de bon sens
HellaSwaghellaswagInférence en langage naturel fondée sur le bon sens
MUSRmusrBenchmark de raisonnement en plusieurs étapes
PIQApiqaRaisonnement de bon sens sur le monde physique
WinoGrandewinograndeRaisonnement de bon sens par résolution de pronoms

Mathématiques

Évaluez la capacité à résoudre des problèmes mathématiques à différents niveaux de difficulté, de l’école primaire jusqu’aux problèmes de niveau concours.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
AGIE Mathagie_mathRaisonnement mathématique avancé issu de la suite de benchmarks AGIE
AGIE SAT Mathagie_sat_mathQuestions de mathématiques du SAT
AIME 2024aime2024Problèmes de l’American Invitational Mathematics Examination de 2024
AIME 2025aime2025Problèmes de l’American Invitational Mathematics Examination de 2025
GSM8Kgsm8kGrade School Math 8K : problèmes de mathématiques en plusieurs étapes
InfiniteBench Math Calcinfinite_bench_math_calcCalculs mathématiques dans des contextes longs
InfiniteBench Math Findinfinite_bench_math_findDétection de motifs mathématiques dans des contextes longs
MATHmathProblèmes de mathématiques de niveau concours
MGSMmgsmGrade School Math multilingue

Code

Évaluez les capacités en programmation et en développement logiciel, comme le débogage, la prédiction d’exécution du code et l’appel de fonctions.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
BFCLbfclBerkeley Function Calling Leaderboard : évalue les capacités d’appel de fonctions et d’utilisation d’outils
InfiniteBench Code Debuginfinite_bench_code_debugTâches de débogage de code sur de longs contextes
InfiniteBench Code Runinfinite_bench_code_runPrédiction de l’exécution de code sur de longs contextes

Lecture

Évaluez la compréhension de l’écrit et l’extraction d’informations à partir de textes complexes.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
AGIE LSAT Reading Comprehensionagie_lsat_rcPassages et questions de compréhension écrite du LSAT
AGIE SAT Englishagie_sat_enQuestions de lecture et d’écriture du SAT avec passages
AGIE SAT English (No Passage)agie_sat_en_without_passageQuestions d’anglais du SAT sans passages associés
DROPdropDiscrete Reasoning Over Paragraphs : compréhension écrite nécessitant un raisonnement numérique
RACE-Hrace_hCompréhension écrite à partir d’examens d’anglais (niveau de difficulté élevé)
SQuADsquadStanford Question Answering Dataset : Questions-réponses extractives sur des articles Wikipédia

Contexte long

Évaluez la capacité à traiter et à raisonner dans des contextes étendus, y compris la récupération d’informations et la reconnaissance de motifs.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
InfiniteBench KV Retrievalinfinite_bench_kv_retrievalRécupération de paires clé-valeur dans de longs contextes
InfiniteBench LongBook (English)infinite_bench_longbook_choice_engQuestions à choix multiple sur de longs ouvrages
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_engQuestions-réponses sur de longs dialogues
InfiniteBench Number Stringinfinite_bench_number_stringReconnaissance de motifs numériques dans de longues séquences
InfiniteBench Passkeyinfinite_bench_passkeyRécupération d’informations à partir d’un long contexte
NIAHniahAiguille dans une botte de foin : test de récupération en contexte long

Sécurité

Évaluez l’alignement, la détection des biais, la résistance aux contenus dangereux et la véracité.
ÉvaluationID de tâcheOpenAI Scorerjeu de données HF à accès restreintDescription
AgentHarmagentharmOuiTeste la résistance du modèle aux comportements nuisibles des agents et aux scénarios d’usage abusif
AgentHarm Benignagentharm_benignOuiRéférence bénigne pour AgentHarm permettant de mesurer les taux de faux positifs
Agentic Misalignmentagentic_misalignmentÉvalue un possible désalignement dans le comportement agentique
AHBahbAgent Harmful Behavior : teste la résistance aux actions agentiques nuisibles
AIRBenchair_benchTeste la résistance aux instructions adversariales
BBEHbbehBenchmark de biais pour évaluer les comportements nuisibles
BBEH Minibbeh_miniVersion réduite du benchmark BBEH
BBQbbqBenchmark de biais pour les questions-réponses
BOLDboldJeu de données sur les biais dans la génération de texte libre
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injectionTeste la résistance aux attaques d’injection visuelle de prompt
Make Me Paymake_me_payTeste la résistance aux scénarios d’arnaque et de fraude financière
MASKmaskOuiOuiTeste la gestion des informations sensibles par le modèle
Personality BFIpersonality_BFIÉvaluation des traits de personnalité selon le modèle Big Five
Personality TRAITpersonality_TRAITOuiÉvaluation complète des traits de personnalité
SOSBenchsosbenchOuiTest de résistance en matière de sécurité et de supervision
StereoSetstereosetMesure les biais stéréotypés dans les modèles de langage
StrongREJECTstrong_rejectTeste la capacité du modèle à rejeter les requêtes dangereuses
SycophancysycophancyÉvalue la tendance à adopter un comportement flagorneur
TruthfulQAtruthfulqaTeste la véracité du modèle et sa résistance aux fausses informations
UCCBuccbBenchmark de classification des contenus dangereux
WMDP Biowmdp_bioTeste les connaissances dangereuses en biologie
WMDP Chemwmdp_chemTeste les connaissances dangereuses en chimie
WMDP Cyberwmdp_cyberTeste les connaissances dangereuses en cybersécurité
XSTestxstestOuiTest de sécurité extrême pour détecter les refus excessifs

Domaine spécialisé

Évaluez les connaissances spécialisées en médecine, chimie, droit, biologie et dans d’autres domaines professionnels.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
ChemBenchchembenchBenchmark de connaissances en chimie et de résolution de problèmes
HealthBenchhealthbenchYesÉvaluation des connaissances en santé et en médecine
HealthBench Consensushealthbench_consensusYesQuestions de santé avec consensus d’experts
HealthBench Hardhealthbench_hardYesScénarios de santé complexes
LabBench Cloning Scenarioslab_bench_cloning_scenariosPlanification d’expériences en laboratoire et clonage
LabBench DBQAlab_bench_dbqaQuestions-réponses sur des bases de données pour des scénarios de laboratoire
LabBench FigQAlab_bench_figqaInterprétation de figures dans des contextes scientifiques
LabBench LitQAlab_bench_litqaQuestions-réponses basées sur la littérature scientifique pour la recherche
LabBench ProtocolQAlab_bench_protocolqaCompréhension des protocoles de laboratoire
LabBench SeqQAlab_bench_seqqaQuestions d’analyse de séquences biologiques
LabBench SuppQAlab_bench_suppqaInterprétation de documents complémentaires
LabBench TableQAlab_bench_tableqaInterprétation de tableaux dans des articles scientifiques
MedQAmedqaQuestions d’examen d’autorisation d’exercice en médecine
PubMedQApubmedqaQuestions-réponses biomédicales à partir de résumés d’articles scientifiques
SEC-QA v1sec_qa_v1Questions-réponses sur les documents déposés auprès de la SEC
SEC-QA v1 (5-shot)sec_qa_v1_5_shotSEC-QA avec 5 exemples
SEC-QA v2sec_qa_v2Benchmark mis à jour des documents déposés auprès de la SEC
SEC-QA v2 (5-shot)sec_qa_v2_5_shotSEC-QA v2 avec 5 exemples

Multimodal

Évaluez la compréhension visuelle et du langage en combinant des données visuelles et textuelles.
ÉvaluationID de tâcheOpenAI ScorerJeu de données HF à accès restreintDescription
DocVQAdocvqaQuestions-réponses visuelles sur des documents : questions sur des images de documents
MathVistamathvistaRaisonnement mathématique dans des contextes visuels combinant vision et mathématiques
MMMU Multiple Choicemmmu_multiple_choiceCompréhension multimodale au format à choix multiple
MMMU Openmmmu_openCompréhension multimodale avec des réponses ouvertes
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognitionTâches de reconnaissance d’attributs visuels
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoningRaisonnement spatial à partir d’entrées visuelles

Suivi d’instructions

Évalue le respect d’instructions spécifiques et des exigences de mise en forme.
ÉvaluationID de tâcheOpenAI Scorerjeu de données HF à accès restreintDescription
IFEvalifevalTeste la capacité à suivre des instructions avec précision

Système

Validation de base du système et vérifications préalables.
ÉvaluationID de tâcheOpenAI Scorerjeu de données HF à accès restreintDescription
Pré-vérificationpre_flightVérification de base du système et test de validation

Étapes suivantes