평가 벤치마크 카탈로그

LLM Evaluation Jobs는 W&B Multi-tenant Cloud에서 프리뷰 단계로 제공됩니다. 프리뷰 기간 동안 컴퓨팅 리소스는 무료로 제공됩니다. 자세히 알아보기

이 페이지에서는 LLM Evaluation Jobs가 제공하는 평가 벤치마크를 범주별로 정리하여 보여줍니다. 일부 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 team-scoped secrets에 추가해야 합니다. 팀원이라면 누구나 평가 작업을 설정할 때 해당 시크릿을 지정할 수 있습니다.

벤치마크의 OpenAI Model Scorer 열이 true이면 해당 벤치마크는 점수 산정을 위해 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자가 OpenAI API 키를 팀 시크릿으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 시크릿을 지정합니다.
- 벤치마크의 Gated Hugging Face Dataset 열에 링크가 있으면 해당 벤치마크는 게이티드 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자가 Hugging Face에서 데이터셋 액세스를 요청하고 Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 시크릿을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 설정할 때 Hugging Face Token 필드에 해당 시크릿을 지정합니다.

지식

과학, 언어, 일반적인 추론 등 다양한 분야에 걸친 사실 지식을 평가합니다.

Evaluation	Task ID	OpenAI Scorer	Gated Hugging Face 데이터셋	Description
BoolQ	`boolq`			자연어 질의로부터 생성된 예/아니오(Boolean) 질문
GPQA Diamond	`gpqa_diamond`			대학원 수준 과학 질문(최고 품질 하위셋)
HLE	`hle`		Yes	인간 수준의 평가 벤치마크
Lingoly	`lingoly`		Yes	언어학 올림피아드 문제
Lingoly Too	`lingoly_too`		Yes	확장된 언어학 도전 과제
MMIU	`mmiu`			대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)	`mmlu_0_shot`			예시 없이 수행하는 Massive Multitask Language Understanding
MMLU (5-shot)	`mmlu_5_shot`			5개의 예시와 함께 수행하는 Massive Multitask Language Understanding
MMLU-Pro	`mmlu_pro`			MMLU의 더 난이도 높은 버전
ONET M6	`onet_m6`			직업 지식 벤치마크
PAWS	`paws`			패러프레이즈를 위한 적대적 단어 치환
SevenLLM MCQ (English)	`sevenllm_mcq_en`			영어 객관식 질문
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			중국어 객관식 질문
SevenLLM QA (English)	`sevenllm_qa_en`			영어 질의응답
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			중국어 질의응답
SimpleQA	`simpleqa`	Yes		단순한 사실 질의응답
SimpleQA Verified	`simpleqa_verified`			정답을 검증한 SimpleQA의 하위 집합
WorldSense	`worldsense`			세계 지식과 상식에 대한 이해를 평가

추론

논리적 사고, 문제 해결, 상식 기반 추론 능력을 평가합니다.

평가	Task ID	설명
AGIE AQUA-RAT	`agie_aqua_rat`	근거를 포함한 대수학 질의응답
AGIE LogiQA (English)	`agie_logiqa_en`	영어 논리 추론 문제
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT 분석적 추론(논리 게임) 문제
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT 논리 추론 문제
ARC Challenge	`arc_challenge`	추론이 필요한 고난도 과학 문제(AI2 Reasoning Challenge)
ARC Easy	`arc_easy`	ARC 데이터셋에서 난이도가 더 낮은 과학 문제 모음
BBH	`bbh`	BIG-Bench Hard: BIG-Bench에서 선별한 고난도 태스크
CoCoNot	`coconot`	반사실적 상식 추론 벤치마크
CommonsenseQA	`commonsense_qa`	상식 추론 문제
HellaSwag	`hellaswag`	상식 기반 자연어 추론
MUSR	`musr`	다단계 추론 벤치마크
PIQA	`piqa`	물리 상식 추론
WinoGrande	`winogrande`	대명사 해소를 통한 상식 추론

Math

초등 수준부터 경시 대회 수준까지 다양한 난이도의 수학 문제 해결 능력을 평가합니다.

Evaluation	Task ID	Description
AGIE Math	`agie_math`	AGIE 벤치마크 모음에 포함된 고급 수학 추론 문제
AGIE SAT Math	`agie_sat_math`	SAT 수학 문제
AIME 2024	`aime2024`	2024년 American Invitational Mathematics Examination 문제
AIME 2025	`aime2025`	2025년 American Invitational Mathematics Examination 문제
GSM8K	`gsm8k`	초등 수학 8K: 여러 단계를 거치는 수학 서술형 문제
InfiniteBench Math Calc	`infinite_bench_math_calc`	긴 컨텍스트에서 수행하는 수학 계산
InfiniteBench Math Find	`infinite_bench_math_find`	긴 컨텍스트에서 수학적 패턴 찾기
MATH	`math`	경시 대회 수준의 수학 문제
MGSM	`mgsm`	다국어 초등 수학 문제

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 능력을 평가합니다.

평가	Task ID	설명
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 능력을 테스트
InfiniteBench Code Debug	`infinite_bench_code_debug`	긴 컨텍스트의 코드 디버깅 작업
InfiniteBench Code Run	`infinite_bench_code_run`	긴 컨텍스트의 코드 실행 예측

독해

복잡한 텍스트에 대한 독해력과 정보 추출 능력을 평가합니다.

Evaluation	Task ID	Description
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT 독해 지문과 문항
AGIE SAT English	`agie_sat_en`	지문이 포함된 SAT 읽기 및 쓰기 문항
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	지문이 제공되지 않는 SAT English 문항
DROP	`drop`	Discrete Reasoning Over Paragraphs: 수치적 추론이 필요한 문단 단위 독해 과제
RACE-H	`race_h`	영어 시험에서 발췌한 고난도 독해 문항
SQuAD	`squad`	Stanford Question Answering Dataset: 위키피디아 문서를 대상으로 하는 추출형 질의응답 데이터셋

긴 컨텍스트

검색 및 패턴 인식을 포함해 확장된 컨텍스트를 처리하고 추론하는 능력을 평가합니다.

Evaluation	Task ID	Description
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	긴 컨텍스트에서의 키-값 검색
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	장편 도서를 대상으로 한 객관식 문제
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	긴 대화를 대상으로 한 질의응답
InfiniteBench Number String	`infinite_bench_number_string`	긴 시퀀스에서의 숫자 패턴 인식
InfiniteBench Passkey	`infinite_bench_passkey`	긴 컨텍스트에서의 정보 검색
NIAH	`niah`	건초 더미 속 바늘(Needle in a Haystack): 긴 컨텍스트 검색 평가

안전성

정렬(alignment), 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.

Evaluation	Task ID	OpenAI Scorer	Gated HF Dataset	Description
AgentHarm	`agentharm`	Yes		모델의 유해한 에이전트 행동 및 오남용 시나리오에 대한 저항성을 테스트
AgentHarm Benign	`agentharm_benign`	Yes		거짓 양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선
Agentic Misalignment	`agentic_misalignment`			에이전트형(agentic) 행동에서 발생할 수 있는 불일치(misalignment) 가능성을 평가
AHB	`ahb`			Agent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트
AIRBench	`air_bench`			적대적 지시(adversarial instruction)에 대한 저항성을 테스트
BBEH	`bbeh`			유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Mini	`bbeh_mini`			BBEH 벤치마크의 소형 버전
BBQ	`bbq`			질의응답에서의 편향을 평가하는 벤치마크
BOLD	`bold`			개방형 언어 생성에서의 편향을 측정하는 데이터셋
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트
Make Me Pay	`make_me_pay`			금융 사기 및 사기(fraud) 시나리오에 대한 저항성을 테스트
MASK	`mask`	Yes	Yes	모델이 민감한 정보를 처리하는 방식을 테스트
Personality BFI	`personality_BFI`			Big Five 성격 특성 평가
Personality TRAIT	`personality_TRAIT`		Yes	포괄적인 성격 특성 평가
SOSBench	`sosbench`	Yes		안전성 및 감독(oversight) 스트레스 테스트
StereoSet	`stereoset`			언어 모델의 고정관념적 편향을 측정
StrongREJECT	`strong_reject`			유해한 요청을 거부하는 모델의 능력을 테스트
Sycophancy	`sycophancy`			아첨적(sycophantic) 행동 경향을 평가
TruthfulQA	`truthfulqa`			모델의 진실성과 거짓 정보에 대한 저항성을 테스트
UCCB	`uccb`			안전하지 않은 콘텐츠 분류 벤치마크(Unsafe Content Classification Benchmark)
WMDP Bio	`wmdp_bio`			생물학 분야의 위험한 지식을 테스트
WMDP Chem	`wmdp_chem`			화학 분야의 위험한 지식을 테스트
WMDP Cyber	`wmdp_cyber`			사이버 보안 분야의 위험한 지식을 테스트
XSTest	`xstest`	Yes		과도한 거부(over-refusal) 탐지를 위한 과장된 안전성 테스트

도메인 특화

의학, 화학, 법학, 생물학 및 기타 전문 분야에서의 전문 지식을 평가합니다.

Evaluation	Task ID	OpenAI Scorer	Description
ChemBench	`chembench`		화학 지식 및 문제 해결 벤치마크
HealthBench	`healthbench`	Yes	헬스케어 및 의학 지식 평가
HealthBench Consensus	`healthbench_consensus`	Yes	전문가 합의가 반영된 헬스케어 질문
HealthBench Hard	`healthbench_hard`	Yes	난이도가 높은 헬스케어 시나리오
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		실험실 실험 계획 및 클로닝 시나리오
LabBench DBQA	`lab_bench_dbqa`		실험실 시나리오에 대한 데이터베이스 질의응답
LabBench FigQA	`lab_bench_figqa`		과학적 문맥에서의 도표 해석
LabBench LitQA	`lab_bench_litqa`		연구 논문 기반 질의응답
LabBench ProtocolQA	`lab_bench_protocolqa`		실험실 프로토콜 이해 평가
LabBench SeqQA	`lab_bench_seqqa`		생물학적 서열 분석 관련 질문
LabBench SuppQA	`lab_bench_suppqa`		보조 자료 해석
LabBench TableQA	`lab_bench_tableqa`		과학 논문 내 표 해석
MedQA	`medqa`		의사 면허 시험 문제
PubMedQA	`pubmedqa`		연구 초록 기반 생의학 질의응답
SEC-QA v1	`sec_qa_v1`		SEC 공시 문서에 대한 질의응답
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		예시 5개를 포함한 SEC-QA
SEC-QA v2	`sec_qa_v2`		업데이트된 SEC 공시 문서 벤치마크
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		예시 5개를 포함한 SEC-QA v2

멀티모달

시각 정보와 텍스트 입력을 결합해 비전·언어 이해를 평가합니다.

Evaluation	Task ID	Description
DocVQA	`docvqa`	문서 이미지에 대한 질의응답(Document Visual Question Answering)
MathVista	`mathvista`	비전과 수학을 결합한 시각적 문맥에서의 수리적 추론
MMMU Multiple Choice	`mmmu_multiple_choice`	객관식 형식의 멀티모달 이해
MMMU Open	`mmmu_open`	서술형 응답 기반 멀티모달 이해
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	시각적 속성 인식 작업
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	시각적 입력을 활용한 공간 관계 추론

지시 준수

특정 지시와 서식 요구 사항을 얼마나 잘 준수하는지 평가합니다.

평가	Task ID	OpenAI Scorer	제한된 HF 데이터셋	설명
IFEval	`ifeval`			정확한 지시 준수 능력을 평가합니다

시스템

기본 시스템 검증 및 사전 점검.

평가	작업 ID	OpenAI 스코어러	제한된 HF 데이터셋	설명
Pre-Flight	`pre_flight`			기본 시스템 점검 및 검증 테스트

다음 단계

모델 체크포인트 평가하기
호스팅된 API 모델 평가하기
특정 벤치마크에 대한 자세한 내용은 AISI Inspect Evals에서 확인할 수 있습니다

가이드

인테그레이션

참고 자료

지식

추론

Math

코드

독해

긴 컨텍스트

안전성

도메인 특화

멀티모달

지시 준수

시스템

다음 단계

가이드

인테그레이션

참고 자료

​지식

​추론

​Math

​코드

​독해

​긴 컨텍스트

​안전성

​도메인 특화

​멀티모달

​지시 준수

​시스템

​다음 단계

지식

추론

Math

코드

독해

긴 컨텍스트

안전성

도메인 특화

멀티모달

지시 준수

시스템

다음 단계