Evaluation Playground

플레이그라운드에서 평가 설정하기
- Weave UI를 연 다음, 평가를 수행할 프로젝트를 엽니다. 그러면 Traces 페이지가 열립니다.
- Traces 페이지에서 왼쪽 메뉴의 Playground 아이콘을 클릭한 다음, Playground 페이지에서 Evaluate 탭을 선택합니다. Evaluate 페이지에서 다음 중 하나를 수행할 수 있습니다.
- Load a demo example: 미리 정의된 설정을 로드하여 MoonshotAI Kimi K2 모델을 예상 출력에 대해 평가하고, LLM judge를 사용해 정답 여부를 판단합니다. 이 설정을 사용해 인터페이스를 실험해 볼 수 있습니다.
- Start from scratch: 빈 설정을 로드하여 직접 구성할 수 있습니다.
- Start from scratch를 선택했다면, Title 및 Description 필드에 평가에 대한 설명적인 제목과 설명을 입력합니다.
데이터셋 추가
.csv.tsv.json.jsonl
- 드롭다운 메뉴를 클릭한 다음 다음 중 하나를 선택합니다:
- 처음부터 시작을 선택해 UI에서 새 데이터셋을 생성합니다.
- 파일 업로드를 선택해 로컬 머신에서 데이터셋을 업로드합니다.
- 프로젝트에 이미 저장된 기존 데이터셋을 선택합니다.
- 선택 사항: 나중에 사용하기 위해 데이터셋을 프로젝트에 저장하려면 Save를 클릭합니다.
새 데이터셋은 UI에서만 편집할 수 있습니다.스코어러가 데이터를 읽을 수 있도록, 데이터셋의 열 이름을
user_input과 expected_output으로 적절히 지정하는 것도 중요합니다.모델 추가하기
- Add Model을 클릭하고 드롭다운 메뉴에서 New Model 또는 기존 모델을 선택합니다.
-
New Model을 선택했다면 다음 필드를 설정합니다:
- Name: 새 모델에 대한 설명적인 이름을 입력합니다.
- LLM Model: OpenAI의 GPT-4와 같이 새 모델을 구축할 기반 모델(foundation model)을 선택합니다. 이미 액세스를 설정해 둔 기반 모델 목록에서 선택할 수 있고, 또는 Add AI provider를 선택한 뒤 모델을 선택해 새로운 기반 모델에 대한 액세스를 추가할 수 있습니다. 프로바이더를 추가하면 해당 프로바이더에 대한 액세스 자격 증명을 입력하라는 메시지가 표시됩니다. API 키, 엔드포인트, 그리고 Weave를 사용해 모델에 액세스하는 데 필요한 추가 설정 정보를 찾는 방법은 각 프로바이더의 문서를 참조하십시오.
- System Prompt: 예를 들어
You are a helpful assistant specializing in Python programming.과 같이, 모델이 어떻게 동작해야 하는지에 대한 지침을 제공합니다. 데이터셋의user_input은 이후 메시지로 전송되므로 시스템 프롬프트에 포함할 필요가 없습니다.
- 선택 사항: Save를 클릭해 모델을 프로젝트에 저장해 두고 나중에 사용할 수 있습니다.
- 선택 사항: 평가를 동시에 수행할 추가 모델을 포함하려면 Add Model을 다시 클릭해 필요한 만큼 다른 모델을 추가합니다.
스코어러 추가
-
Add Scorer를 클릭한 다음, 다음 필드를 설정합니다:
- Name: 스코어러에 설명이 되는 이름을 추가합니다.
-
Type: 점수의 출력 방식을 선택합니다.
boolean또는 숫자 중 하나입니다. Boolean 스코어러는 모델 출력이 설정한 평가 기준을 충족했는지에 따라True또는False의 이진 값을 반환합니다. 숫자 스코어러는0에서1사이의 점수를 출력하여, 모델 출력이 평가 기준을 얼마나 잘 충족했는지에 대한 전반적인 등급을 제공합니다. - LLM-as-a-judge-model: 스코어러의 judge로 사용할 foundation model을 선택합니다. Models 섹션의 LLM Model 필드와 유사하게, 이미 액세스를 구성해 둔 foundation model 중에서 선택하거나 새로 foundation model 액세스를 구성할 수 있습니다.
-
Scoring Prompt: 어떤 기준으로 출력을 채점해야 하는지에 대한 LLM judge 파라미터를 제공합니다. 예를 들어, 환각(hallucination)을 검사하고 싶다면 다음과 같은 스코어링 프롬프트를 입력할 수 있습니다:
{user_input},{expected_output},{output}처럼 데이터셋과 응답의 필드를 스코어링 프롬프트에서 변수로 사용할 수 있습니다. 사용 가능한 변수 목록을 보려면 UI에서 Insert variable을 클릭합니다.
- 선택 사항: 나중에 사용할 수 있도록 스코어러를 프로젝트에 저장하려면 Save를 클릭합니다.
평가 실행하기
- Evaluation Playground에서 평가를 실행하려면 Run eval을 클릭합니다.
평가 결과 검토
