이 노트북은 대화형 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
preprocess_model_input와 함께 HuggingFace Datasets로 평가 수행하기
참고: 이것은 임시 해결 방법입니다
이 가이드는 HuggingFace Datasets를 Weave 평가와 함께 사용하기 위한 임시 해결 방법을 보여 줍니다.
현재 이 과정을 더 단순화할 수 있도록, 보다 원활한 인테그레이션을 적극적으로 개발하고 있습니다.
이 방식도 동작하지만, 가까운 시일 내에 외부 데이터셋을 더 쉽게 사용할 수 있도록 개선과 업데이트가 이뤄질 예정입니다.
설정 및 임포트
HuggingFace 데이터셋 로드 및 준비
- HuggingFace 데이터셋을 로드합니다.
- 데이터셋 행을 참조하기 위한 인덱스 매핑을 생성합니다.
- 이러한 인덱스 방식을 사용하면 원본 데이터셋에 대한 참조를 유지할 수 있습니다.
Note:
인덱스에서는 각 행이 고유한 식별자를 가지도록hf_id와 함께hf_hub_name을 인코딩합니다. 이 고유한 다이제스트 값은 평가 중 특정 데이터셋 항목을 추적하고 참조하는 데 사용됩니다.
처리 및 평가 함수 정의
처리 파이프라인
preprocess_example: 인덱스 참조를 평가에 필요한 실제 데이터로 변환합니다hf_eval: 모델 출력에 점수를 매기는 방법을 정의합니다function_to_evaluate: 실제로 평가할 함수/모델입니다
평가 생성 및 실행
- hf_index의 각 인덱스에 대해:
preprocess_example이 HF 데이터셋에서 해당 데이터를 가져옵니다.- 전처리된 데이터를
function_to_evaluate에 전달합니다. - 출력에 대해
hf_eval을 사용해 점수를 계산합니다. - 결과는 Weave에서 추적됩니다.