メインコンテンツへスキップ
LLM Evaluation Jobs は W&B Multi-tenant Cloudプレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。
このページでは、LLM Evaluation Jobs がカテゴリ別に提供する評価ベンチマークを一覧しています。 一部のベンチマークを実行するには、チーム管理者が必要なAPIキーをチームスコープのシークレットとして追加する必要があります。任意のチームメンバーが、評価ジョブを設定する際にそのシークレットを指定できます。
  • OpenAI Model Scorer 列が true のベンチマークは、スコアリングに OpenAI のモデルを使用します。組織またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する際は、Scorer API key フィールドにそのシークレットを指定します。
    • Gated Hugging Face Dataset 列にリンクがあるベンチマークは、制限付きの Hugging Face データセットへのアクセスが必要です。組織またはチーム管理者は、Hugging Face 上でそのデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセス トークンを作成し、そのアクセスキーでチームシークレットを設定する必要があります。この要件があるベンチマークを設定する際は、Hugging Face Token フィールドにそのシークレットを指定します。

知識

科学、言語、一般的な推論など、さまざまな分野にわたる事実に基づく知識を評価します。
EvaluationTask ID
OpenAI Scorer
Gated Hugging Face Dataset説明
BoolQboolq自然言語クエリに基づくブール型のはい/いいえ質問
GPQA Diamondgpqa_diamond大学院レベルの科学に関する質問(最高品質のサブセット)
HLEhleYes人間レベルの評価ベンチマーク
LingolylingolyYes言語学オリンピック形式の問題
Lingoly Toolingoly_tooYes拡張された言語学チャレンジ問題
MMIUmmiuMassive Multitask Language Understanding のベンチマーク
MMLU (0-shot)mmlu_0_shot例なしの Massive Multitask Language Understanding
MMLU (5-shot)mmlu_5_shot5 つの例を用いた Massive Multitask Language Understanding
MMLU-Prommlu_proMMLU のより難易度の高いバージョン
ONET M6onet_m6職業知識のベンチマーク
PAWSpawsパラフレーズに対する敵対的な単語置換タスク
SevenLLM MCQ (English)sevenllm_mcq_en英語の多肢選択式問題
SevenLLM MCQ (Chinese)sevenllm_mcq_zh中国語の多肢選択式問題
SevenLLM QA (English)sevenllm_qa_en英語での質問応答タスク
SevenLLM QA (Chinese)sevenllm_qa_zh中国語での質問応答タスク
SimpleQAsimpleqaYesシンプルな事実ベースの質問応答
SimpleQA Verifiedsimpleqa_verified回答が検証された SimpleQA の検証済みサブセット
WorldSenseworldsense世界に関する知識と常識の理解を評価

推論

論理的思考力、問題解決能力、常識に基づく推論能力を評価します。
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AGIE AQUA-RATagie_aqua_rat根拠付きの代数問題に対する質問応答
AGIE LogiQA (English)agie_logiqa_en英語の論理推論問題
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT の分析推論(ロジックゲーム)問題
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT の論理推論問題
ARC Challengearc_challenge高度な推論を要する難易度の高い科学問題(AI2 Reasoning Challenge)
ARC Easyarc_easyARC データセットからの比較的易しい科学問題セット
BBHbbhBIG-Bench Hard: BIG-Bench から抽出した難易度の高いタスク
CoCoNotcoconot反事実的な常識推論ベンチマーク
CommonsenseQAcommonsense_qa常識推論問題
HellaSwaghellaswag常識に基づく自然言語推論
MUSRmusr多段階推論ベンチマーク
PIQApiqa物理的常識に関する推論
WinoGrandewinogrande代名詞解決による常識推論

数学

小学校レベルから競技レベルまで、さまざまな難易度の数学の問題解決能力を評価します。
評価Task IDOpenAI Scorerアクセス制限付き HF データセット説明
AGIE Mathagie_mathAGIE ベンチマークスイートに含まれる高度な数学的推論問題
AGIE SAT Mathagie_sat_mathSAT 数学の問題
AIME 2024aime20242024 年の American Invitational Mathematics Examination の問題
AIME 2025aime20252025 年の American Invitational Mathematics Examination の問題
GSM8Kgsm8kGrade School Math 8K: 複数ステップの算数文章題
InfiniteBench Math Calcinfinite_bench_math_calc長いコンテキストにおける数学的計算
InfiniteBench Math Findinfinite_bench_math_find長いコンテキストにおける数学的パターンの探索
MATHmath競技レベルの数学問題
MGSMmgsm多言語版 Grade School Math

コード

デバッグ、コード実行結果の予測、関数呼び出しなど、プログラミングやソフトウェア開発における能力を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
BFCLbfclBerkeley Function Calling Leaderboard: 関数呼び出しおよびツール使用の能力を評価します
InfiniteBench Code Debuginfinite_bench_code_debug長いコンテキストを持つコードのデバッグタスク
InfiniteBench Code Runinfinite_bench_code_run長いコンテキストを持つコードに対する実行結果の予測

読解

複雑なテキストからの読解力と情報抽出能力を評価します。
評価タスク IDOpenAI スコアラーGated HF データセット説明
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT 読解問題の文章と設問
AGIE SAT Englishagie_sat_en文章付きの SAT リーディングおよびライティング問題
AGIE SAT English (No Passage)agie_sat_en_without_passage文章なしの SAT English 問題
DROPdropDiscrete Reasoning Over Paragraphs:数値推論を要する読解問題
RACE-Hrace_h英語試験に基づく読解問題(高難度)
SQuADsquadStanford Question Answering Dataset:Wikipedia 記事に対する抽出型質問応答

長いコンテキスト

長いコンテキストを処理し推論する能力を評価します。検索やパターン認識を含みます。
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval長いコンテキストにおけるキー・バリュー検索
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng長編書籍を対象とした多肢選択式問題
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng長い対話を対象とした質問応答
InfiniteBench Number Stringinfinite_bench_number_string長い数列におけるパターン認識
InfiniteBench Passkeyinfinite_bench_passkey長いコンテキストからの情報検索
NIAHniahNeedle in a Haystack(干し草の山から針): 長いコンテキストにおける検索テスト

セーフティ

アライメント、バイアス検出、有害コンテンツへの耐性、真実性を評価します。
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AgentHarmagentharmYes有害なエージェント挙動や悪用シナリオに対するモデルの耐性をテストします
AgentHarm Benignagentharm_benignYes偽陽性率を測定するための AgentHarm のベニン(無害)なベースライン
Agentic Misalignmentagentic_misalignmentエージェント的な挙動における潜在的なミスアライメントを評価します
AHBahbAgent Harmful Behavior:有害なエージェント的行動への耐性をテストします
AIRBenchair_bench敵対的なインストラクション(指示文)への耐性をテストします
BBEHbbeh有害な挙動を評価するためのバイアスベンチマーク
BBEH Minibbeh_miniBBEH ベンチマークの小規模版
BBQbbq質問応答におけるバイアスベンチマーク
BOLDbold自由文生成におけるバイアスを評価するデータセット
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injectionビジュアルプロンプトインジェクション攻撃への耐性をテストします
Make Me Paymake_me_pay金融詐欺やスキャムシナリオへの耐性をテストします
MASKmaskYesYesモデルによる機微な情報の扱い方をテストします
Personality BFIpersonality_BFIビッグファイブ性格特性の評価
Personality TRAITpersonality_TRAITYes包括的な性格特性評価
SOSBenchsosbenchYesセーフティとオーバーサイト(監督)のストレステスト
StereoSetstereoset言語モデルにおけるステレオタイプ的なバイアスを測定します
StrongREJECTstrong_reject有害なリクエストを拒否するモデルの能力をテストします
Sycophancysycophancy追従的(イエスマン的)な挙動の傾向を評価します
TruthfulQAtruthfulqaモデルの真実性と虚偽情報への耐性をテストします
UCCBuccbUnsafe Content Classification Benchmark(安全でないコンテンツ分類ベンチマーク)
WMDP Biowmdp_bio生物学における危険な知識をテストします
WMDP Chemwmdp_chem化学における危険な知識をテストします
WMDP Cyberwmdp_cyberサイバーセキュリティにおける危険な知識をテストします
XSTestxstestYes過剰な拒否を検出するための、あえて厳しく設計されたセーフティテスト

ドメイン固有

医学、化学、法学、生物学などの専門分野における専門的な知識を評価します。
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
ChemBenchchembench化学の知識と問題解決能力のベンチマーク
HealthBenchhealthbenchYesヘルスケアおよび医学知識の評価
HealthBench Consensushealthbench_consensusYes専門家の合意が得られたヘルスケア関連の質問
HealthBench Hardhealthbench_hardYes難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarioslab_bench_cloning_scenarios実験計画およびクローン作製に関するラボシナリオ
LabBench DBQAlab_bench_dbqaラボシナリオ向けデータベース質問応答
LabBench FigQAlab_bench_figqa科学的文脈における図の解釈
LabBench LitQAlab_bench_litqa研究文献に基づく質問応答
LabBench ProtocolQAlab_bench_protocolqa実験プロトコルの理解
LabBench SeqQAlab_bench_seqqa生物学的配列解析に関する質問
LabBench SuppQAlab_bench_suppqa補足資料の解釈
LabBench TableQAlab_bench_tableqa科学論文中の表の解釈
MedQAmedqa医師国家試験のような医療資格試験の問題
PubMedQApubmedqa研究抄録に基づくバイオメディカル質問応答
SEC-QA v1sec_qa_v1SEC 提出書類に関する質問応答
SEC-QA v1 (5-shot)sec_qa_v1_5_shot5 つの例を用いた SEC-QA
SEC-QA v2sec_qa_v2更新版 SEC 提出書類ベンチマーク
SEC-QA v2 (5-shot)sec_qa_v2_5_shot5 つの例を用いた SEC-QA v2

マルチモーダル

視覚情報と言語情報を組み合わせた、画像と言語の理解能力を評価します。
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
DocVQAdocvqaDocument Visual Question Answering: 文書画像に対する質問応答タスク
MathVistamathvista視覚的コンテキストと数学を組み合わせた数学的推論タスク
MMMU Multiple Choicemmmu_multiple_choice選択式形式によるマルチモーダル理解タスク
MMMU Openmmmu_open自由記述形式によるマルチモーダル理解タスク
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition視覚的属性認識タスク
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning視覚入力を用いた空間的関係の推論タスク

指示追従

特定の指示および書式要件への遵守度を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
IFEvalifeval厳密な指示追従能力を評価します

システム

基本的なシステム検証およびプレフライトチェック。
評価タスク IDOpenAI Scorer制限付き HF データセット説明
Pre-Flightpre_flightシステムの基本的な動作確認および検証テスト

次のステップ