메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs는 W&B Multi-tenant Cloud에서 프리뷰 단계로 제공됩니다. 프리뷰 기간 동안 컴퓨팅 리소스는 무료로 제공됩니다. 자세히 알아보기
이 페이지에서는 LLM Evaluation Jobs가 제공하는 평가 벤치마크를 범주별로 정리하여 보여줍니다. 일부 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 team-scoped secrets에 추가해야 합니다. 팀원이라면 누구나 평가 작업을 설정할 때 해당 시크릿을 지정할 수 있습니다.
  • 벤치마크의 OpenAI Model Scorer 열이 true이면 해당 벤치마크는 점수 산정을 위해 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자가 OpenAI API 키를 팀 시크릿으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 시크릿을 지정합니다.
    • 벤치마크의 Gated Hugging Face Dataset 열에 링크가 있으면 해당 벤치마크는 게이티드 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자가 Hugging Face에서 데이터셋 액세스를 요청하고 Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 시크릿을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 설정할 때 Hugging Face Token 필드에 해당 시크릿을 지정합니다.

지식

과학, 언어, 일반적인 추론 등 다양한 분야에 걸친 사실 지식을 평가합니다.
EvaluationTask ID
OpenAI Scorer
Gated Hugging Face 데이터셋Description
BoolQboolq자연어 질의로부터 생성된 예/아니오(Boolean) 질문
GPQA Diamondgpqa_diamond대학원 수준 과학 질문(최고 품질 하위셋)
HLEhleYes인간 수준의 평가 벤치마크
LingolylingolyYes언어학 올림피아드 문제
Lingoly Toolingoly_tooYes확장된 언어학 도전 과제
MMIUmmiu대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)mmlu_0_shot예시 없이 수행하는 Massive Multitask Language Understanding
MMLU (5-shot)mmlu_5_shot5개의 예시와 함께 수행하는 Massive Multitask Language Understanding
MMLU-Prommlu_proMMLU의 더 난이도 높은 버전
ONET M6onet_m6직업 지식 벤치마크
PAWSpaws패러프레이즈를 위한 적대적 단어 치환
SevenLLM MCQ (English)sevenllm_mcq_en영어 객관식 질문
SevenLLM MCQ (Chinese)sevenllm_mcq_zh중국어 객관식 질문
SevenLLM QA (English)sevenllm_qa_en영어 질의응답
SevenLLM QA (Chinese)sevenllm_qa_zh중국어 질의응답
SimpleQAsimpleqaYes단순한 사실 질의응답
SimpleQA Verifiedsimpleqa_verified정답을 검증한 SimpleQA의 하위 집합
WorldSenseworldsense세계 지식과 상식에 대한 이해를 평가

추론

논리적 사고, 문제 해결, 상식 기반 추론 능력을 평가합니다.
평가Task IDOpenAI Scorer접근 제한 HF 데이터셋설명
AGIE AQUA-RATagie_aqua_rat근거를 포함한 대수학 질의응답
AGIE LogiQA (English)agie_logiqa_en영어 논리 추론 문제
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT 분석적 추론(논리 게임) 문제
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT 논리 추론 문제
ARC Challengearc_challenge추론이 필요한 고난도 과학 문제(AI2 Reasoning Challenge)
ARC Easyarc_easyARC 데이터셋에서 난이도가 더 낮은 과학 문제 모음
BBHbbhBIG-Bench Hard: BIG-Bench에서 선별한 고난도 태스크
CoCoNotcoconot반사실적 상식 추론 벤치마크
CommonsenseQAcommonsense_qa상식 추론 문제
HellaSwaghellaswag상식 기반 자연어 추론
MUSRmusr다단계 추론 벤치마크
PIQApiqa물리 상식 추론
WinoGrandewinogrande대명사 해소를 통한 상식 추론

Math

초등 수준부터 경시 대회 수준까지 다양한 난이도의 수학 문제 해결 능력을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AGIE Mathagie_mathAGIE 벤치마크 모음에 포함된 고급 수학 추론 문제
AGIE SAT Mathagie_sat_mathSAT 수학 문제
AIME 2024aime20242024년 American Invitational Mathematics Examination 문제
AIME 2025aime20252025년 American Invitational Mathematics Examination 문제
GSM8Kgsm8k초등 수학 8K: 여러 단계를 거치는 수학 서술형 문제
InfiniteBench Math Calcinfinite_bench_math_calc긴 컨텍스트에서 수행하는 수학 계산
InfiniteBench Math Findinfinite_bench_math_find긴 컨텍스트에서 수학적 패턴 찾기
MATHmath경시 대회 수준의 수학 문제
MGSMmgsm다국어 초등 수학 문제

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF 데이터셋설명
BFCLbfclBerkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 능력을 테스트
InfiniteBench Code Debuginfinite_bench_code_debug긴 컨텍스트의 코드 디버깅 작업
InfiniteBench Code Runinfinite_bench_code_run긴 컨텍스트의 코드 실행 예측

독해

복잡한 텍스트에 대한 독해력과 정보 추출 능력을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT 독해 지문과 문항
AGIE SAT Englishagie_sat_en지문이 포함된 SAT 읽기 및 쓰기 문항
AGIE SAT English (No Passage)agie_sat_en_without_passage지문이 제공되지 않는 SAT English 문항
DROPdropDiscrete Reasoning Over Paragraphs: 수치적 추론이 필요한 문단 단위 독해 과제
RACE-Hrace_h영어 시험에서 발췌한 고난도 독해 문항
SQuADsquadStanford Question Answering Dataset: 위키피디아 문서를 대상으로 하는 추출형 질의응답 데이터셋

긴 컨텍스트

검색 및 패턴 인식을 포함해 확장된 컨텍스트를 처리하고 추론하는 능력을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval긴 컨텍스트에서의 키-값 검색
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng장편 도서를 대상으로 한 객관식 문제
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng긴 대화를 대상으로 한 질의응답
InfiniteBench Number Stringinfinite_bench_number_string긴 시퀀스에서의 숫자 패턴 인식
InfiniteBench Passkeyinfinite_bench_passkey긴 컨텍스트에서의 정보 검색
NIAHniah건초 더미 속 바늘(Needle in a Haystack): 긴 컨텍스트 검색 평가

안전성

정렬(alignment), 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AgentHarmagentharmYes모델의 유해한 에이전트 행동 및 오남용 시나리오에 대한 저항성을 테스트
AgentHarm Benignagentharm_benignYes거짓 양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선
Agentic Misalignmentagentic_misalignment에이전트형(agentic) 행동에서 발생할 수 있는 불일치(misalignment) 가능성을 평가
AHBahbAgent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트
AIRBenchair_bench적대적 지시(adversarial instruction)에 대한 저항성을 테스트
BBEHbbeh유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Minibbeh_miniBBEH 벤치마크의 소형 버전
BBQbbq질의응답에서의 편향을 평가하는 벤치마크
BOLDbold개방형 언어 생성에서의 편향을 측정하는 데이터셋
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트
Make Me Paymake_me_pay금융 사기 및 사기(fraud) 시나리오에 대한 저항성을 테스트
MASKmaskYesYes모델이 민감한 정보를 처리하는 방식을 테스트
Personality BFIpersonality_BFIBig Five 성격 특성 평가
Personality TRAITpersonality_TRAITYes포괄적인 성격 특성 평가
SOSBenchsosbenchYes안전성 및 감독(oversight) 스트레스 테스트
StereoSetstereoset언어 모델의 고정관념적 편향을 측정
StrongREJECTstrong_reject유해한 요청을 거부하는 모델의 능력을 테스트
Sycophancysycophancy아첨적(sycophantic) 행동 경향을 평가
TruthfulQAtruthfulqa모델의 진실성과 거짓 정보에 대한 저항성을 테스트
UCCBuccb안전하지 않은 콘텐츠 분류 벤치마크(Unsafe Content Classification Benchmark)
WMDP Biowmdp_bio생물학 분야의 위험한 지식을 테스트
WMDP Chemwmdp_chem화학 분야의 위험한 지식을 테스트
WMDP Cyberwmdp_cyber사이버 보안 분야의 위험한 지식을 테스트
XSTestxstestYes과도한 거부(over-refusal) 탐지를 위한 과장된 안전성 테스트

도메인 특화

의학, 화학, 법학, 생물학 및 기타 전문 분야에서의 전문 지식을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
ChemBenchchembench화학 지식 및 문제 해결 벤치마크
HealthBenchhealthbenchYes헬스케어 및 의학 지식 평가
HealthBench Consensushealthbench_consensusYes전문가 합의가 반영된 헬스케어 질문
HealthBench Hardhealthbench_hardYes난이도가 높은 헬스케어 시나리오
LabBench Cloning Scenarioslab_bench_cloning_scenarios실험실 실험 계획 및 클로닝 시나리오
LabBench DBQAlab_bench_dbqa실험실 시나리오에 대한 데이터베이스 질의응답
LabBench FigQAlab_bench_figqa과학적 문맥에서의 도표 해석
LabBench LitQAlab_bench_litqa연구 논문 기반 질의응답
LabBench ProtocolQAlab_bench_protocolqa실험실 프로토콜 이해 평가
LabBench SeqQAlab_bench_seqqa생물학적 서열 분석 관련 질문
LabBench SuppQAlab_bench_suppqa보조 자료 해석
LabBench TableQAlab_bench_tableqa과학 논문 내 표 해석
MedQAmedqa의사 면허 시험 문제
PubMedQApubmedqa연구 초록 기반 생의학 질의응답
SEC-QA v1sec_qa_v1SEC 공시 문서에 대한 질의응답
SEC-QA v1 (5-shot)sec_qa_v1_5_shot예시 5개를 포함한 SEC-QA
SEC-QA v2sec_qa_v2업데이트된 SEC 공시 문서 벤치마크
SEC-QA v2 (5-shot)sec_qa_v2_5_shot예시 5개를 포함한 SEC-QA v2

멀티모달

시각 정보와 텍스트 입력을 결합해 비전·언어 이해를 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
DocVQAdocvqa문서 이미지에 대한 질의응답(Document Visual Question Answering)
MathVistamathvista비전과 수학을 결합한 시각적 문맥에서의 수리적 추론
MMMU Multiple Choicemmmu_multiple_choice객관식 형식의 멀티모달 이해
MMMU Openmmmu_open서술형 응답 기반 멀티모달 이해
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition시각적 속성 인식 작업
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning시각적 입력을 활용한 공간 관계 추론

지시 준수

특정 지시와 서식 요구 사항을 얼마나 잘 준수하는지 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
IFEvalifeval정확한 지시 준수 능력을 평가합니다

시스템

기본 시스템 검증 및 사전 점검.
평가작업 IDOpenAI 스코어러제한된 HF 데이터셋설명
Pre-Flightpre_flight기본 시스템 점검 및 검증 테스트

다음 단계