LLM Evaluation Jobs는 W&B Multi-tenant Cloud에서 프리뷰 단계로 제공됩니다. 프리뷰 기간 동안 컴퓨팅 리소스는 무료로 제공됩니다. 자세히 알아보기
사전 준비 사항
- LLM Evaluation Job에 대한 요구 사항 및 제한 사항을 검토합니다.
- 일부 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 team-scoped secrets로 추가해야 합니다. 팀 구성원이라면 누구나 평가 job을 구성할 때 해당 시크릿을 지정할 수 있습니다. 요구 사항은 Evaluation model catalog를 참고하세요.
- OpenAPI API key: 점수 산출에 OpenAI 모델을 사용하는 벤치마크에서 사용됩니다. 벤치마크를 선택한 후 Scorer API key 필드가 나타나는 경우 필요합니다. 시크릿 이름은
OPENAI_API_KEY여야 합니다. - Hugging Face user access token: 하나 이상의 gated Hugging Face 데이터셋에 대한 접근이 필요한
lingoly및lingoly2와 같은 일부 벤치마크에 필요합니다. 벤치마크를 선택한 후 Hugging Face Token 필드가 나타나는 경우 필요합니다. 이 API 키에는 관련 데이터셋에 대한 접근 권한이 있어야 합니다. 자세한 내용은 Hugging Face 문서의 User access tokens 및 accessing gated datasets를 참고하세요.
- OpenAPI API key: 점수 산출에 OpenAI 모델을 사용하는 벤치마크에서 사용됩니다. 벤치마크를 선택한 후 Scorer API key 필드가 나타나는 경우 필요합니다. 시크릿 이름은
- 평가 결과를 위한 새로운 W&B project를 생성합니다. 프로젝트 사이드바에서 Create new project를 클릭합니다.
- 모델을 VLLM과 호환되는 형식으로 패키징한 후, 이를 W&B Models에 아티팩트로 저장합니다. 다른 유형의 아티팩트를 벤치마크하려는 시도는 실패합니다. 한 가지 방법은 이 문서 맨 아래의 예시: 모델 준비하기를 참고하세요.
- 특정 벤치마크에 대한 문서를 검토하여 동작 방식과 구체적인 요구 사항을 파악합니다. 편의를 위해 Available evaluation benchmarks 참고 문서에 관련 링크가 정리되어 있습니다.
모델 평가하기
- W&B에 로그인한 다음 프로젝트 사이드바에서 Launch를 클릭합니다. LLM Evaluation Jobs 페이지가 표시됩니다.
- 평가 작업을 설정하려면 Evaluate model checkpoint를 클릭합니다.
- 평가 결과를 저장할 대상 프로젝트를 선택합니다.
- Model artifact 섹션에서 평가할 준비된 모델의 프로젝트, 아티팩트, 버전을 지정합니다.
- Evaluations를 클릭한 다음 최대 네 개의 벤치마크를 선택합니다.
- 채점에 OpenAI 모델을 사용하는 벤치마크를 선택하면 Scorer API key 필드가 표시됩니다. 이 필드를 클릭한 다음
OPENAI_API_KEY시크릿을 선택합니다. 편의를 위해 팀 관리자는 이 드로어에서 Create secret을 클릭해 시크릿을 새로 만들 수 있습니다. - Hugging Face에서 gated 데이터셋에 대한 액세스가 필요한 벤치마크를 선택하면 Hugging Face token 필드가 표시됩니다. 관련 데이터셋에 대한 액세스를 요청한 후, Hugging Face 사용자 액세스 토큰이 포함된 시크릿을 선택합니다.
- 필요에 따라 Sample limit를 양의 정수로 설정해 평가할 벤치마크 샘플의 최대 개수를 제한합니다. 설정하지 않으면 태스크의 모든 샘플이 포함됩니다.
- 리더보드를 자동으로 생성하려면 Publish results to leaderboard를 클릭합니다. 리더보드는 워크스페이스 패널에 모든 평가를 함께 표시하며, 리포트에서 공유할 수도 있습니다.
- 평가 작업을 실행하려면 Launch를 클릭합니다.
- 페이지 상단의 원형 화살표 아이콘을 클릭해 최근 run 모달을 엽니다. 평가 작업은 다른 최근 run과 함께 표시됩니다. 완료된 run의 이름을 클릭하면 단일 run 보기로 열리고, Leaderboard 링크를 클릭하면 리더보드를 바로 열 수 있습니다. 자세한 내용은 결과 보기를 참조하세요.


평가 결과 검토
- 페이지 상단의 원형 화살표 아이콘을 클릭하여 최근 run 모달을 엽니다. 여기에서 평가 작업이 프로젝트의 다른 run들과 함께 표시됩니다. 평가 작업에 리더보드가 있는 경우 Leaderboard를 클릭하여 리더보드를 전체 화면으로 열거나, run 이름을 클릭하여 해당 run을 프로젝트의 단일 run 보기에서 엽니다.
- 워크스페이스의 Evaluations 섹션 또는 Weave 사이드바 패널의 Traces 탭에서 평가 작업의 트레이스를 확인합니다.
- Overview 탭을 클릭하여 평가 작업의 설정 및 요약 메트릭을 포함한 자세한 정보를 확인합니다.
- Logs 탭을 클릭하여 평가 작업의 디버그 로그를 보고, 검색하거나 다운로드합니다.
- Files 탭을 클릭하여 코드, 로그, 설정 및 기타 출력 파일을 포함한 평가 작업의 파일을 탐색하거나, 열어 보거나, 다운로드합니다.
리더보드 사용자 지정
- 기본적으로 모든 평가 작업이 표시됩니다. 왼쪽에 있는 run 선택기를 사용해 평가 작업을 필터링하거나 검색하세요.
- 기본적으로 평가 작업은 그룹화되어 있지 않습니다. 하나 이상의 열로 그룹화하려면 Group 아이콘을 클릭하세요. 그룹을 표시하거나 숨기고, 그룹을 확장하여 해당 runs를 확인할 수 있습니다.
- 기본적으로 모든 오퍼레이션이 표시됩니다. 하나의 오퍼레이션만 표시하려면 All ops를 클릭하고 오퍼레이션을 선택하세요.
- 열을 기준으로 정렬하려면 열 제목을 클릭하세요. 열 표시를 사용자 지정하려면 Columns를 클릭하세요.
- 기본적으로 헤더는 단일 단계로 구성됩니다. 관련 헤더를 함께 구성하려면 헤더 깊이를 늘릴 수 있습니다.
- 개별 열을 선택하거나 선택 해제하여 표시하거나 숨길 수 있으며, 한 번의 클릭으로 모든 열을 표시하거나 숨길 수 있습니다.
- 열을 고정하여 고정되지 않은 열보다 앞에 표시할 수 있습니다.
리더보드 내보내기
- Columns 버튼 근처에 있는 다운로드 아이콘을 클릭한다.
- 내보내기 파일 크기를 최적화하기 위해 기본적으로 트레이스 루트만 내보낸다. 전체 트레이스를 내보내려면 Trace roots only를 끈다.
- 내보내기 파일 크기를 최적화하기 위해 기본적으로 피드백과 비용 정보는 내보내지 않는다. 내보내기에 포함하려면 Feedback 또는 Costs를 켠다.
- 기본 내보내기 형식은 JSONL이다. 형식을 변경하려면 Export to file을 클릭하고 형식을 선택한다.
- 브라우저에서 리더보드를 내보내려면 Export를 클릭한다.
- 리더보드를 프로그래밍 방식으로 내보내려면 Python 또는 cURL을 선택한 다음 Copy를 클릭하고 스크립트 또는 명령을 실행한다.
평가 작업 다시 실행하기
- 마지막 평가 작업을 다시 실행하려면 모델 평가하기의 단계를 따르세요. 대상 프로젝트를 선택하면, 지난번에 선택했던 모델 아티팩트 세부 정보와 선택한 벤치마크가 자동으로 채워집니다. 필요하다면 수정한 후 평가 작업을 실행하세요.
- 프로젝트의 Runs 탭이나 run 선택기에서 평가 작업을 다시 실행하려면, run 이름 위에 커서를 올린 뒤 재생 아이콘을 클릭하세요. 작업 설정 패널에 미리 채워진 설정이 표시됩니다. 필요에 따라 설정을 수정한 다음 Launch를 클릭하세요.
- 다른 프로젝트에서 평가 작업을 다시 실행하려면, 해당 설정을 가져오세요:
- 모델 평가하기의 단계를 따르세요. 대상 프로젝트를 선택한 후 Import configuration을 클릭하세요.
- 가져올 평가 작업이 포함된 프로젝트를 선택한 다음, 해당 평가 작업 run을 선택하세요. 작업 설정 패널에 미리 채워진 설정이 표시됩니다.
- 필요에 따라 설정을 수정하세요.
- Launch를 클릭하세요.
평가 잡 설정 내보내기
- 단일 run 보기에서 해당 run을 엽니다.
- Files 탭을 클릭합니다.
config.yaml옆의 다운로드 버튼을 클릭해 로컬로 다운로드합니다.