評価ベンチマークカタログ

LLM Evaluation Jobs は W&B Multi-tenant Cloud で プレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。

このページでは、LLM Evaluation Jobs がカテゴリ別に提供する評価ベンチマークを一覧しています。一部のベンチマークを実行するには、チーム管理者が必要なAPIキーをチームスコープのシークレットとして追加する必要があります。任意のチームメンバーが、評価ジョブを設定する際にそのシークレットを指定できます。

OpenAI Model Scorer 列が true のベンチマークは、スコアリングに OpenAI のモデルを使用します。組織またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する際は、Scorer API key フィールドにそのシークレットを指定します。
- Gated Hugging Face Dataset 列にリンクがあるベンチマークは、制限付きの Hugging Face データセットへのアクセスが必要です。組織またはチーム管理者は、Hugging Face 上でそのデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセストークンを作成し、そのアクセスキーでチームシークレットを設定する必要があります。この要件があるベンチマークを設定する際は、Hugging Face Token フィールドにそのシークレットを指定します。

知識

科学、言語、一般的な推論など、さまざまな分野にわたる事実に基づく知識を評価します。

Evaluation	Task ID	OpenAI Scorer	Gated Hugging Face Dataset	説明
BoolQ	`boolq`			自然言語クエリに基づくブール型のはい/いいえ質問
GPQA Diamond	`gpqa_diamond`			大学院レベルの科学に関する質問（最高品質のサブセット）
HLE	`hle`		Yes	人間レベルの評価ベンチマーク
Lingoly	`lingoly`		Yes	言語学オリンピック形式の問題
Lingoly Too	`lingoly_too`		Yes	拡張された言語学チャレンジ問題
MMIU	`mmiu`			Massive Multitask Language Understanding のベンチマーク
MMLU (0-shot)	`mmlu_0_shot`			例なしの Massive Multitask Language Understanding
MMLU (5-shot)	`mmlu_5_shot`			5 つの例を用いた Massive Multitask Language Understanding
MMLU-Pro	`mmlu_pro`			MMLU のより難易度の高いバージョン
ONET M6	`onet_m6`			職業知識のベンチマーク
PAWS	`paws`			パラフレーズに対する敵対的な単語置換タスク
SevenLLM MCQ (English)	`sevenllm_mcq_en`			英語の多肢選択式問題
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			中国語の多肢選択式問題
SevenLLM QA (English)	`sevenllm_qa_en`			英語での質問応答タスク
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			中国語での質問応答タスク
SimpleQA	`simpleqa`	Yes		シンプルな事実ベースの質問応答
SimpleQA Verified	`simpleqa_verified`			回答が検証された SimpleQA の検証済みサブセット
WorldSense	`worldsense`			世界に関する知識と常識の理解を評価

推論

論理的思考力、問題解決能力、常識に基づく推論能力を評価します。

Evaluation	Task ID	Description
AGIE AQUA-RAT	`agie_aqua_rat`	根拠付きの代数問題に対する質問応答
AGIE LogiQA (English)	`agie_logiqa_en`	英語の論理推論問題
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT の分析推論（ロジックゲーム）問題
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT の論理推論問題
ARC Challenge	`arc_challenge`	高度な推論を要する難易度の高い科学問題（AI2 Reasoning Challenge）
ARC Easy	`arc_easy`	ARC データセットからの比較的易しい科学問題セット
BBH	`bbh`	BIG-Bench Hard: BIG-Bench から抽出した難易度の高いタスク
CoCoNot	`coconot`	反事実的な常識推論ベンチマーク
CommonsenseQA	`commonsense_qa`	常識推論問題
HellaSwag	`hellaswag`	常識に基づく自然言語推論
MUSR	`musr`	多段階推論ベンチマーク
PIQA	`piqa`	物理的常識に関する推論
WinoGrande	`winogrande`	代名詞解決による常識推論

数学

小学校レベルから競技レベルまで、さまざまな難易度の数学の問題解決能力を評価します。

評価	Task ID	説明
AGIE Math	`agie_math`	AGIE ベンチマークスイートに含まれる高度な数学的推論問題
AGIE SAT Math	`agie_sat_math`	SAT 数学の問題
AIME 2024	`aime2024`	2024 年の American Invitational Mathematics Examination の問題
AIME 2025	`aime2025`	2025 年の American Invitational Mathematics Examination の問題
GSM8K	`gsm8k`	Grade School Math 8K: 複数ステップの算数文章題
InfiniteBench Math Calc	`infinite_bench_math_calc`	長いコンテキストにおける数学的計算
InfiniteBench Math Find	`infinite_bench_math_find`	長いコンテキストにおける数学的パターンの探索
MATH	`math`	競技レベルの数学問題
MGSM	`mgsm`	多言語版 Grade School Math

コード

デバッグ、コード実行結果の予測、関数呼び出しなど、プログラミングやソフトウェア開発における能力を評価します。

評価	タスク ID	説明
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 関数呼び出しおよびツール使用の能力を評価します
InfiniteBench Code Debug	`infinite_bench_code_debug`	長いコンテキストを持つコードのデバッグタスク
InfiniteBench Code Run	`infinite_bench_code_run`	長いコンテキストを持つコードに対する実行結果の予測

読解

複雑なテキストからの読解力と情報抽出能力を評価します。

評価	タスク ID	説明
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT 読解問題の文章と設問
AGIE SAT English	`agie_sat_en`	文章付きの SAT リーディングおよびライティング問題
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	文章なしの SAT English 問題
DROP	`drop`	Discrete Reasoning Over Paragraphs：数値推論を要する読解問題
RACE-H	`race_h`	英語試験に基づく読解問題（高難度）
SQuAD	`squad`	Stanford Question Answering Dataset：Wikipedia 記事に対する抽出型質問応答

長いコンテキスト

長いコンテキストを処理し推論する能力を評価します。検索やパターン認識を含みます。

Evaluation	Task ID	Description
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	長いコンテキストにおけるキー・バリュー検索
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	長編書籍を対象とした多肢選択式問題
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	長い対話を対象とした質問応答
InfiniteBench Number String	`infinite_bench_number_string`	長い数列におけるパターン認識
InfiniteBench Passkey	`infinite_bench_passkey`	長いコンテキストからの情報検索
NIAH	`niah`	Needle in a Haystack（干し草の山から針）: 長いコンテキストにおける検索テスト

セーフティ

アライメント、バイアス検出、有害コンテンツへの耐性、真実性を評価します。

Evaluation	Task ID	OpenAI Scorer	Gated HF Dataset	Description
AgentHarm	`agentharm`	Yes		有害なエージェント挙動や悪用シナリオに対するモデルの耐性をテストします
AgentHarm Benign	`agentharm_benign`	Yes		偽陽性率を測定するための AgentHarm のベニン（無害）なベースライン
Agentic Misalignment	`agentic_misalignment`			エージェント的な挙動における潜在的なミスアライメントを評価します
AHB	`ahb`			Agent Harmful Behavior：有害なエージェント的行動への耐性をテストします
AIRBench	`air_bench`			敵対的なインストラクション（指示文）への耐性をテストします
BBEH	`bbeh`			有害な挙動を評価するためのバイアスベンチマーク
BBEH Mini	`bbeh_mini`			BBEH ベンチマークの小規模版
BBQ	`bbq`			質問応答におけるバイアスベンチマーク
BOLD	`bold`			自由文生成におけるバイアスを評価するデータセット
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			ビジュアルプロンプトインジェクション攻撃への耐性をテストします
Make Me Pay	`make_me_pay`			金融詐欺やスキャムシナリオへの耐性をテストします
MASK	`mask`	Yes	Yes	モデルによる機微な情報の扱い方をテストします
Personality BFI	`personality_BFI`			ビッグファイブ性格特性の評価
Personality TRAIT	`personality_TRAIT`		Yes	包括的な性格特性評価
SOSBench	`sosbench`	Yes		セーフティとオーバーサイト（監督）のストレステスト
StereoSet	`stereoset`			言語モデルにおけるステレオタイプ的なバイアスを測定します
StrongREJECT	`strong_reject`			有害なリクエストを拒否するモデルの能力をテストします
Sycophancy	`sycophancy`			追従的（イエスマン的）な挙動の傾向を評価します
TruthfulQA	`truthfulqa`			モデルの真実性と虚偽情報への耐性をテストします
UCCB	`uccb`			Unsafe Content Classification Benchmark（安全でないコンテンツ分類ベンチマーク）
WMDP Bio	`wmdp_bio`			生物学における危険な知識をテストします
WMDP Chem	`wmdp_chem`			化学における危険な知識をテストします
WMDP Cyber	`wmdp_cyber`			サイバーセキュリティにおける危険な知識をテストします
XSTest	`xstest`	Yes		過剰な拒否を検出するための、あえて厳しく設計されたセーフティテスト

ドメイン固有

医学、化学、法学、生物学などの専門分野における専門的な知識を評価します。

Evaluation	Task ID	OpenAI Scorer	Description
ChemBench	`chembench`		化学の知識と問題解決能力のベンチマーク
HealthBench	`healthbench`	Yes	ヘルスケアおよび医学知識の評価
HealthBench Consensus	`healthbench_consensus`	Yes	専門家の合意が得られたヘルスケア関連の質問
HealthBench Hard	`healthbench_hard`	Yes	難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		実験計画およびクローン作製に関するラボシナリオ
LabBench DBQA	`lab_bench_dbqa`		ラボシナリオ向けデータベース質問応答
LabBench FigQA	`lab_bench_figqa`		科学的文脈における図の解釈
LabBench LitQA	`lab_bench_litqa`		研究文献に基づく質問応答
LabBench ProtocolQA	`lab_bench_protocolqa`		実験プロトコルの理解
LabBench SeqQA	`lab_bench_seqqa`		生物学的配列解析に関する質問
LabBench SuppQA	`lab_bench_suppqa`		補足資料の解釈
LabBench TableQA	`lab_bench_tableqa`		科学論文中の表の解釈
MedQA	`medqa`		医師国家試験のような医療資格試験の問題
PubMedQA	`pubmedqa`		研究抄録に基づくバイオメディカル質問応答
SEC-QA v1	`sec_qa_v1`		SEC 提出書類に関する質問応答
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		5 つの例を用いた SEC-QA
SEC-QA v2	`sec_qa_v2`		更新版 SEC 提出書類ベンチマーク
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		5 つの例を用いた SEC-QA v2

マルチモーダル

視覚情報と言語情報を組み合わせた、画像と言語の理解能力を評価します。

Evaluation	Task ID	Description
DocVQA	`docvqa`	Document Visual Question Answering: 文書画像に対する質問応答タスク
MathVista	`mathvista`	視覚的コンテキストと数学を組み合わせた数学的推論タスク
MMMU Multiple Choice	`mmmu_multiple_choice`	選択式形式によるマルチモーダル理解タスク
MMMU Open	`mmmu_open`	自由記述形式によるマルチモーダル理解タスク
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	視覚的属性認識タスク
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	視覚入力を用いた空間的関係の推論タスク

指示追従

特定の指示および書式要件への遵守度を評価します。

評価	タスク ID	OpenAI スコアラー	アクセス制限付き HF データセット	説明
IFEval	`ifeval`			厳密な指示追従能力を評価します

システム

基本的なシステム検証およびプレフライトチェック。

評価	タスク ID	OpenAI Scorer	制限付き HF データセット	説明
Pre-Flight	`pre_flight`			システムの基本的な動作確認および検証テスト

次のステップ

モデルチェックポイントを評価する
ホストされた API モデルを評価する
特定のベンチマークの詳細については、AISI Inspect Evals を参照してください

ガイド

インテグレーション

リファレンス

知識

推論

数学

コード

読解

長いコンテキスト

セーフティ

ドメイン固有

マルチモーダル

指示追従

システム

次のステップ

ガイド

インテグレーション

リファレンス

​知識

​推論

​数学

​コード

​読解

​長いコンテキスト

​セーフティ

​ドメイン固有

​マルチモーダル

​指示追従

​システム

​次のステップ

知識

推論

数学

コード

読解

長いコンテキスト

セーフティ

ドメイン固有

マルチモーダル

指示追従

システム

次のステップ