LLM Evaluation Jobs は W&B Multi-tenant Cloud で プレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。
- OpenAI Model Scorer 列が
trueのベンチマークは、スコアリングに OpenAI のモデルを使用します。組織またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する際は、Scorer API key フィールドにそのシークレットを指定します。- Gated Hugging Face Dataset 列にリンクがあるベンチマークは、制限付きの Hugging Face データセットへのアクセスが必要です。組織またはチーム管理者は、Hugging Face 上でそのデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセス トークンを作成し、そのアクセスキーでチームシークレットを設定する必要があります。この要件があるベンチマークを設定する際は、Hugging Face Token フィールドにそのシークレットを指定します。
知識
| Evaluation | Task ID | OpenAI Scorer | Gated Hugging Face Dataset | 説明 |
|---|---|---|---|---|
| BoolQ | boolq | 自然言語クエリに基づくブール型のはい/いいえ質問 | ||
| GPQA Diamond | gpqa_diamond | 大学院レベルの科学に関する質問(最高品質のサブセット) | ||
| HLE | hle | Yes | 人間レベルの評価ベンチマーク | |
| Lingoly | lingoly | Yes | 言語学オリンピック形式の問題 | |
| Lingoly Too | lingoly_too | Yes | 拡張された言語学チャレンジ問題 | |
| MMIU | mmiu | Massive Multitask Language Understanding のベンチマーク | ||
| MMLU (0-shot) | mmlu_0_shot | 例なしの Massive Multitask Language Understanding | ||
| MMLU (5-shot) | mmlu_5_shot | 5 つの例を用いた Massive Multitask Language Understanding | ||
| MMLU-Pro | mmlu_pro | MMLU のより難易度の高いバージョン | ||
| ONET M6 | onet_m6 | 職業知識のベンチマーク | ||
| PAWS | paws | パラフレーズに対する敵対的な単語置換タスク | ||
| SevenLLM MCQ (English) | sevenllm_mcq_en | 英語の多肢選択式問題 | ||
| SevenLLM MCQ (Chinese) | sevenllm_mcq_zh | 中国語の多肢選択式問題 | ||
| SevenLLM QA (English) | sevenllm_qa_en | 英語での質問応答タスク | ||
| SevenLLM QA (Chinese) | sevenllm_qa_zh | 中国語での質問応答タスク | ||
| SimpleQA | simpleqa | Yes | シンプルな事実ベースの質問応答 | |
| SimpleQA Verified | simpleqa_verified | 回答が検証された SimpleQA の検証済みサブセット | ||
| WorldSense | worldsense | 世界に関する知識と常識の理解を評価 |
推論
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| AGIE AQUA-RAT | agie_aqua_rat | 根拠付きの代数問題に対する質問応答 | ||
| AGIE LogiQA (English) | agie_logiqa_en | 英語の論理推論問題 | ||
| AGIE LSAT Analytical Reasoning | agie_lsat_ar | LSAT の分析推論(ロジックゲーム)問題 | ||
| AGIE LSAT Logical Reasoning | agie_lsat_lr | LSAT の論理推論問題 | ||
| ARC Challenge | arc_challenge | 高度な推論を要する難易度の高い科学問題(AI2 Reasoning Challenge) | ||
| ARC Easy | arc_easy | ARC データセットからの比較的易しい科学問題セット | ||
| BBH | bbh | BIG-Bench Hard: BIG-Bench から抽出した難易度の高いタスク | ||
| CoCoNot | coconot | 反事実的な常識推論ベンチマーク | ||
| CommonsenseQA | commonsense_qa | 常識推論問題 | ||
| HellaSwag | hellaswag | 常識に基づく自然言語推論 | ||
| MUSR | musr | 多段階推論ベンチマーク | ||
| PIQA | piqa | 物理的常識に関する推論 | ||
| WinoGrande | winogrande | 代名詞解決による常識推論 |
数学
| 評価 | Task ID | OpenAI Scorer | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| AGIE Math | agie_math | AGIE ベンチマークスイートに含まれる高度な数学的推論問題 | ||
| AGIE SAT Math | agie_sat_math | SAT 数学の問題 | ||
| AIME 2024 | aime2024 | 2024 年の American Invitational Mathematics Examination の問題 | ||
| AIME 2025 | aime2025 | 2025 年の American Invitational Mathematics Examination の問題 | ||
| GSM8K | gsm8k | Grade School Math 8K: 複数ステップの算数文章題 | ||
| InfiniteBench Math Calc | infinite_bench_math_calc | 長いコンテキストにおける数学的計算 | ||
| InfiniteBench Math Find | infinite_bench_math_find | 長いコンテキストにおける数学的パターンの探索 | ||
| MATH | math | 競技レベルの数学問題 | ||
| MGSM | mgsm | 多言語版 Grade School Math |
コード
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| BFCL | bfcl | Berkeley Function Calling Leaderboard: 関数呼び出しおよびツール使用の能力を評価します | ||
| InfiniteBench Code Debug | infinite_bench_code_debug | 長いコンテキストを持つコードのデバッグタスク | ||
| InfiniteBench Code Run | infinite_bench_code_run | 長いコンテキストを持つコードに対する実行結果の予測 |
読解
| 評価 | タスク ID | OpenAI スコアラー | Gated HF データセット | 説明 |
|---|---|---|---|---|
| AGIE LSAT Reading Comprehension | agie_lsat_rc | LSAT 読解問題の文章と設問 | ||
| AGIE SAT English | agie_sat_en | 文章付きの SAT リーディングおよびライティング問題 | ||
| AGIE SAT English (No Passage) | agie_sat_en_without_passage | 文章なしの SAT English 問題 | ||
| DROP | drop | Discrete Reasoning Over Paragraphs:数値推論を要する読解問題 | ||
| RACE-H | race_h | 英語試験に基づく読解問題(高難度) | ||
| SQuAD | squad | Stanford Question Answering Dataset:Wikipedia 記事に対する抽出型質問応答 |
長いコンテキスト
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| InfiniteBench KV Retrieval | infinite_bench_kv_retrieval | 長いコンテキストにおけるキー・バリュー検索 | ||
| InfiniteBench LongBook (English) | infinite_bench_longbook_choice_eng | 長編書籍を対象とした多肢選択式問題 | ||
| InfiniteBench LongDialogue QA (English) | infinite_bench_longdialogue_qa_eng | 長い対話を対象とした質問応答 | ||
| InfiniteBench Number String | infinite_bench_number_string | 長い数列におけるパターン認識 | ||
| InfiniteBench Passkey | infinite_bench_passkey | 長いコンテキストからの情報検索 | ||
| NIAH | niah | Needle in a Haystack(干し草の山から針): 長いコンテキストにおける検索テスト |
セーフティ
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| AgentHarm | agentharm | Yes | 有害なエージェント挙動や悪用シナリオに対するモデルの耐性をテストします | |
| AgentHarm Benign | agentharm_benign | Yes | 偽陽性率を測定するための AgentHarm のベニン(無害)なベースライン | |
| Agentic Misalignment | agentic_misalignment | エージェント的な挙動における潜在的なミスアライメントを評価します | ||
| AHB | ahb | Agent Harmful Behavior:有害なエージェント的行動への耐性をテストします | ||
| AIRBench | air_bench | 敵対的なインストラクション(指示文)への耐性をテストします | ||
| BBEH | bbeh | 有害な挙動を評価するためのバイアスベンチマーク | ||
| BBEH Mini | bbeh_mini | BBEH ベンチマークの小規模版 | ||
| BBQ | bbq | 質問応答におけるバイアスベンチマーク | ||
| BOLD | bold | 自由文生成におけるバイアスを評価するデータセット | ||
| CYSE3 Visual Prompt Injection | cyse3_visual_prompt_injection | ビジュアルプロンプトインジェクション攻撃への耐性をテストします | ||
| Make Me Pay | make_me_pay | 金融詐欺やスキャムシナリオへの耐性をテストします | ||
| MASK | mask | Yes | Yes | モデルによる機微な情報の扱い方をテストします |
| Personality BFI | personality_BFI | ビッグファイブ性格特性の評価 | ||
| Personality TRAIT | personality_TRAIT | Yes | 包括的な性格特性評価 | |
| SOSBench | sosbench | Yes | セーフティとオーバーサイト(監督)のストレステスト | |
| StereoSet | stereoset | 言語モデルにおけるステレオタイプ的なバイアスを測定します | ||
| StrongREJECT | strong_reject | 有害なリクエストを拒否するモデルの能力をテストします | ||
| Sycophancy | sycophancy | 追従的(イエスマン的)な挙動の傾向を評価します | ||
| TruthfulQA | truthfulqa | モデルの真実性と虚偽情報への耐性をテストします | ||
| UCCB | uccb | Unsafe Content Classification Benchmark(安全でないコンテンツ分類ベンチマーク) | ||
| WMDP Bio | wmdp_bio | 生物学における危険な知識をテストします | ||
| WMDP Chem | wmdp_chem | 化学における危険な知識をテストします | ||
| WMDP Cyber | wmdp_cyber | サイバーセキュリティにおける危険な知識をテストします | ||
| XSTest | xstest | Yes | 過剰な拒否を検出するための、あえて厳しく設計されたセーフティテスト |
ドメイン固有
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| ChemBench | chembench | 化学の知識と問題解決能力のベンチマーク | ||
| HealthBench | healthbench | Yes | ヘルスケアおよび医学知識の評価 | |
| HealthBench Consensus | healthbench_consensus | Yes | 専門家の合意が得られたヘルスケア関連の質問 | |
| HealthBench Hard | healthbench_hard | Yes | 難易度の高いヘルスケアシナリオ | |
| LabBench Cloning Scenarios | lab_bench_cloning_scenarios | 実験計画およびクローン作製に関するラボシナリオ | ||
| LabBench DBQA | lab_bench_dbqa | ラボシナリオ向けデータベース質問応答 | ||
| LabBench FigQA | lab_bench_figqa | 科学的文脈における図の解釈 | ||
| LabBench LitQA | lab_bench_litqa | 研究文献に基づく質問応答 | ||
| LabBench ProtocolQA | lab_bench_protocolqa | 実験プロトコルの理解 | ||
| LabBench SeqQA | lab_bench_seqqa | 生物学的配列解析に関する質問 | ||
| LabBench SuppQA | lab_bench_suppqa | 補足資料の解釈 | ||
| LabBench TableQA | lab_bench_tableqa | 科学論文中の表の解釈 | ||
| MedQA | medqa | 医師国家試験のような医療資格試験の問題 | ||
| PubMedQA | pubmedqa | 研究抄録に基づくバイオメディカル質問応答 | ||
| SEC-QA v1 | sec_qa_v1 | SEC 提出書類に関する質問応答 | ||
| SEC-QA v1 (5-shot) | sec_qa_v1_5_shot | 5 つの例を用いた SEC-QA | ||
| SEC-QA v2 | sec_qa_v2 | 更新版 SEC 提出書類ベンチマーク | ||
| SEC-QA v2 (5-shot) | sec_qa_v2_5_shot | 5 つの例を用いた SEC-QA v2 |
マルチモーダル
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| DocVQA | docvqa | Document Visual Question Answering: 文書画像に対する質問応答タスク | ||
| MathVista | mathvista | 視覚的コンテキストと数学を組み合わせた数学的推論タスク | ||
| MMMU Multiple Choice | mmmu_multiple_choice | 選択式形式によるマルチモーダル理解タスク | ||
| MMMU Open | mmmu_open | 自由記述形式によるマルチモーダル理解タスク | ||
| V*Star Bench Attribute Recognition | vstar_bench_attribute_recognition | 視覚的属性認識タスク | ||
| V*Star Bench Spatial Relationship | vstar_bench_spatial_relationship_reasoning | 視覚入力を用いた空間的関係の推論タスク |
指示追従
| 評価 | タスク ID | OpenAI スコアラー | アクセス制限付き HF データセット | 説明 |
|---|---|---|---|---|
| IFEval | ifeval | 厳密な指示追従能力を評価します |
システム
| 評価 | タスク ID | OpenAI Scorer | 制限付き HF データセット | 説明 |
|---|---|---|---|---|
| Pre-Flight | pre_flight | システムの基本的な動作確認および検証テスト |
次のステップ
- モデルチェックポイントを評価する
- ホストされた API モデルを評価する
- 特定のベンチマークの詳細については、AISI Inspect Evals を参照してください