LLM Evaluation Jobs는 W&B Multi-tenant Cloud에서 프리뷰 단계로 제공됩니다. 프리뷰 기간 동안 컴퓨팅 리소스는 무료로 제공됩니다. 자세히 알아보기
- 벤치마크의 OpenAI Model Scorer 열이
true이면 해당 벤치마크는 점수 산정을 위해 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자가 OpenAI API 키를 팀 시크릿으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 시크릿을 지정합니다.- 벤치마크의 Gated Hugging Face Dataset 열에 링크가 있으면 해당 벤치마크는 게이티드 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자가 Hugging Face에서 데이터셋 액세스를 요청하고 Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 시크릿을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 설정할 때 Hugging Face Token 필드에 해당 시크릿을 지정합니다.
지식
| Evaluation | Task ID | OpenAI Scorer | Gated Hugging Face 데이터셋 | Description |
|---|---|---|---|---|
| BoolQ | boolq | 자연어 질의로부터 생성된 예/아니오(Boolean) 질문 | ||
| GPQA Diamond | gpqa_diamond | 대학원 수준 과학 질문(최고 품질 하위셋) | ||
| HLE | hle | Yes | 인간 수준의 평가 벤치마크 | |
| Lingoly | lingoly | Yes | 언어학 올림피아드 문제 | |
| Lingoly Too | lingoly_too | Yes | 확장된 언어학 도전 과제 | |
| MMIU | mmiu | 대규모 멀티태스크 언어 이해 벤치마크 | ||
| MMLU (0-shot) | mmlu_0_shot | 예시 없이 수행하는 Massive Multitask Language Understanding | ||
| MMLU (5-shot) | mmlu_5_shot | 5개의 예시와 함께 수행하는 Massive Multitask Language Understanding | ||
| MMLU-Pro | mmlu_pro | MMLU의 더 난이도 높은 버전 | ||
| ONET M6 | onet_m6 | 직업 지식 벤치마크 | ||
| PAWS | paws | 패러프레이즈를 위한 적대적 단어 치환 | ||
| SevenLLM MCQ (English) | sevenllm_mcq_en | 영어 객관식 질문 | ||
| SevenLLM MCQ (Chinese) | sevenllm_mcq_zh | 중국어 객관식 질문 | ||
| SevenLLM QA (English) | sevenllm_qa_en | 영어 질의응답 | ||
| SevenLLM QA (Chinese) | sevenllm_qa_zh | 중국어 질의응답 | ||
| SimpleQA | simpleqa | Yes | 단순한 사실 질의응답 | |
| SimpleQA Verified | simpleqa_verified | 정답을 검증한 SimpleQA의 하위 집합 | ||
| WorldSense | worldsense | 세계 지식과 상식에 대한 이해를 평가 |
추론
| 평가 | Task ID | OpenAI Scorer | 접근 제한 HF 데이터셋 | 설명 |
|---|---|---|---|---|
| AGIE AQUA-RAT | agie_aqua_rat | 근거를 포함한 대수학 질의응답 | ||
| AGIE LogiQA (English) | agie_logiqa_en | 영어 논리 추론 문제 | ||
| AGIE LSAT Analytical Reasoning | agie_lsat_ar | LSAT 분석적 추론(논리 게임) 문제 | ||
| AGIE LSAT Logical Reasoning | agie_lsat_lr | LSAT 논리 추론 문제 | ||
| ARC Challenge | arc_challenge | 추론이 필요한 고난도 과학 문제(AI2 Reasoning Challenge) | ||
| ARC Easy | arc_easy | ARC 데이터셋에서 난이도가 더 낮은 과학 문제 모음 | ||
| BBH | bbh | BIG-Bench Hard: BIG-Bench에서 선별한 고난도 태스크 | ||
| CoCoNot | coconot | 반사실적 상식 추론 벤치마크 | ||
| CommonsenseQA | commonsense_qa | 상식 추론 문제 | ||
| HellaSwag | hellaswag | 상식 기반 자연어 추론 | ||
| MUSR | musr | 다단계 추론 벤치마크 | ||
| PIQA | piqa | 물리 상식 추론 | ||
| WinoGrande | winogrande | 대명사 해소를 통한 상식 추론 |
Math
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| AGIE Math | agie_math | AGIE 벤치마크 모음에 포함된 고급 수학 추론 문제 | ||
| AGIE SAT Math | agie_sat_math | SAT 수학 문제 | ||
| AIME 2024 | aime2024 | 2024년 American Invitational Mathematics Examination 문제 | ||
| AIME 2025 | aime2025 | 2025년 American Invitational Mathematics Examination 문제 | ||
| GSM8K | gsm8k | 초등 수학 8K: 여러 단계를 거치는 수학 서술형 문제 | ||
| InfiniteBench Math Calc | infinite_bench_math_calc | 긴 컨텍스트에서 수행하는 수학 계산 | ||
| InfiniteBench Math Find | infinite_bench_math_find | 긴 컨텍스트에서 수학적 패턴 찾기 | ||
| MATH | math | 경시 대회 수준의 수학 문제 | ||
| MGSM | mgsm | 다국어 초등 수학 문제 |
코드
| 평가 | Task ID | OpenAI Scorer | Gated HF 데이터셋 | 설명 |
|---|---|---|---|---|
| BFCL | bfcl | Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 능력을 테스트 | ||
| InfiniteBench Code Debug | infinite_bench_code_debug | 긴 컨텍스트의 코드 디버깅 작업 | ||
| InfiniteBench Code Run | infinite_bench_code_run | 긴 컨텍스트의 코드 실행 예측 |
독해
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| AGIE LSAT Reading Comprehension | agie_lsat_rc | LSAT 독해 지문과 문항 | ||
| AGIE SAT English | agie_sat_en | 지문이 포함된 SAT 읽기 및 쓰기 문항 | ||
| AGIE SAT English (No Passage) | agie_sat_en_without_passage | 지문이 제공되지 않는 SAT English 문항 | ||
| DROP | drop | Discrete Reasoning Over Paragraphs: 수치적 추론이 필요한 문단 단위 독해 과제 | ||
| RACE-H | race_h | 영어 시험에서 발췌한 고난도 독해 문항 | ||
| SQuAD | squad | Stanford Question Answering Dataset: 위키피디아 문서를 대상으로 하는 추출형 질의응답 데이터셋 |
긴 컨텍스트
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| InfiniteBench KV Retrieval | infinite_bench_kv_retrieval | 긴 컨텍스트에서의 키-값 검색 | ||
| InfiniteBench LongBook (English) | infinite_bench_longbook_choice_eng | 장편 도서를 대상으로 한 객관식 문제 | ||
| InfiniteBench LongDialogue QA (English) | infinite_bench_longdialogue_qa_eng | 긴 대화를 대상으로 한 질의응답 | ||
| InfiniteBench Number String | infinite_bench_number_string | 긴 시퀀스에서의 숫자 패턴 인식 | ||
| InfiniteBench Passkey | infinite_bench_passkey | 긴 컨텍스트에서의 정보 검색 | ||
| NIAH | niah | 건초 더미 속 바늘(Needle in a Haystack): 긴 컨텍스트 검색 평가 |
안전성
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| AgentHarm | agentharm | Yes | 모델의 유해한 에이전트 행동 및 오남용 시나리오에 대한 저항성을 테스트 | |
| AgentHarm Benign | agentharm_benign | Yes | 거짓 양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선 | |
| Agentic Misalignment | agentic_misalignment | 에이전트형(agentic) 행동에서 발생할 수 있는 불일치(misalignment) 가능성을 평가 | ||
| AHB | ahb | Agent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트 | ||
| AIRBench | air_bench | 적대적 지시(adversarial instruction)에 대한 저항성을 테스트 | ||
| BBEH | bbeh | 유해한 행동을 평가하기 위한 편향 벤치마크 | ||
| BBEH Mini | bbeh_mini | BBEH 벤치마크의 소형 버전 | ||
| BBQ | bbq | 질의응답에서의 편향을 평가하는 벤치마크 | ||
| BOLD | bold | 개방형 언어 생성에서의 편향을 측정하는 데이터셋 | ||
| CYSE3 Visual Prompt Injection | cyse3_visual_prompt_injection | 시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트 | ||
| Make Me Pay | make_me_pay | 금융 사기 및 사기(fraud) 시나리오에 대한 저항성을 테스트 | ||
| MASK | mask | Yes | Yes | 모델이 민감한 정보를 처리하는 방식을 테스트 |
| Personality BFI | personality_BFI | Big Five 성격 특성 평가 | ||
| Personality TRAIT | personality_TRAIT | Yes | 포괄적인 성격 특성 평가 | |
| SOSBench | sosbench | Yes | 안전성 및 감독(oversight) 스트레스 테스트 | |
| StereoSet | stereoset | 언어 모델의 고정관념적 편향을 측정 | ||
| StrongREJECT | strong_reject | 유해한 요청을 거부하는 모델의 능력을 테스트 | ||
| Sycophancy | sycophancy | 아첨적(sycophantic) 행동 경향을 평가 | ||
| TruthfulQA | truthfulqa | 모델의 진실성과 거짓 정보에 대한 저항성을 테스트 | ||
| UCCB | uccb | 안전하지 않은 콘텐츠 분류 벤치마크(Unsafe Content Classification Benchmark) | ||
| WMDP Bio | wmdp_bio | 생물학 분야의 위험한 지식을 테스트 | ||
| WMDP Chem | wmdp_chem | 화학 분야의 위험한 지식을 테스트 | ||
| WMDP Cyber | wmdp_cyber | 사이버 보안 분야의 위험한 지식을 테스트 | ||
| XSTest | xstest | Yes | 과도한 거부(over-refusal) 탐지를 위한 과장된 안전성 테스트 |
도메인 특화
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| ChemBench | chembench | 화학 지식 및 문제 해결 벤치마크 | ||
| HealthBench | healthbench | Yes | 헬스케어 및 의학 지식 평가 | |
| HealthBench Consensus | healthbench_consensus | Yes | 전문가 합의가 반영된 헬스케어 질문 | |
| HealthBench Hard | healthbench_hard | Yes | 난이도가 높은 헬스케어 시나리오 | |
| LabBench Cloning Scenarios | lab_bench_cloning_scenarios | 실험실 실험 계획 및 클로닝 시나리오 | ||
| LabBench DBQA | lab_bench_dbqa | 실험실 시나리오에 대한 데이터베이스 질의응답 | ||
| LabBench FigQA | lab_bench_figqa | 과학적 문맥에서의 도표 해석 | ||
| LabBench LitQA | lab_bench_litqa | 연구 논문 기반 질의응답 | ||
| LabBench ProtocolQA | lab_bench_protocolqa | 실험실 프로토콜 이해 평가 | ||
| LabBench SeqQA | lab_bench_seqqa | 생물학적 서열 분석 관련 질문 | ||
| LabBench SuppQA | lab_bench_suppqa | 보조 자료 해석 | ||
| LabBench TableQA | lab_bench_tableqa | 과학 논문 내 표 해석 | ||
| MedQA | medqa | 의사 면허 시험 문제 | ||
| PubMedQA | pubmedqa | 연구 초록 기반 생의학 질의응답 | ||
| SEC-QA v1 | sec_qa_v1 | SEC 공시 문서에 대한 질의응답 | ||
| SEC-QA v1 (5-shot) | sec_qa_v1_5_shot | 예시 5개를 포함한 SEC-QA | ||
| SEC-QA v2 | sec_qa_v2 | 업데이트된 SEC 공시 문서 벤치마크 | ||
| SEC-QA v2 (5-shot) | sec_qa_v2_5_shot | 예시 5개를 포함한 SEC-QA v2 |
멀티모달
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|---|---|---|---|
| DocVQA | docvqa | 문서 이미지에 대한 질의응답(Document Visual Question Answering) | ||
| MathVista | mathvista | 비전과 수학을 결합한 시각적 문맥에서의 수리적 추론 | ||
| MMMU Multiple Choice | mmmu_multiple_choice | 객관식 형식의 멀티모달 이해 | ||
| MMMU Open | mmmu_open | 서술형 응답 기반 멀티모달 이해 | ||
| V*Star Bench Attribute Recognition | vstar_bench_attribute_recognition | 시각적 속성 인식 작업 | ||
| V*Star Bench Spatial Relationship | vstar_bench_spatial_relationship_reasoning | 시각적 입력을 활용한 공간 관계 추론 |
지시 준수
| 평가 | Task ID | OpenAI Scorer | 제한된 HF 데이터셋 | 설명 |
|---|---|---|---|---|
| IFEval | ifeval | 정확한 지시 준수 능력을 평가합니다 |
시스템
| 평가 | 작업 ID | OpenAI 스코어러 | 제한된 HF 데이터셋 | 설명 |
|---|---|---|---|---|
| Pre-Flight | pre_flight | 기본 시스템 점검 및 검증 테스트 |
다음 단계
- 모델 체크포인트 평가하기
- 호스팅된 API 모델 평가하기
- 특정 벤치마크에 대한 자세한 내용은 AISI Inspect Evals에서 확인할 수 있습니다