로컬 스코어러는 Weave Python SDK에서만 사용할 수 있습니다. 아직 Weave TypeScript SDK에서는 사용할 수 없습니다.TypeScript에서 Weave 스코어러를 사용하려면 함수 기반 스코어러를 참고하세요.
설치
model_id만 설정하면 됩니다.
지원되는 모델 목록은 여기에서 확인하세요.
HallucinationFreeScorer
system_prompt와user_prompt필드를 커스터마이징하여, 여기서 “hallucination”이 무엇을 의미하는지 정의하세요.
score메서드는 이름이context인 입력 컬럼을 기대합니다. 데이터셋에서 다른 이름을 사용한다면,column_map속성을 사용하여context를 해당 데이터셋 컬럼에 매핑하세요.
SummarizationScorer
- 엔티티 밀도: 요약에 언급된 고유 엔티티(이름, 장소, 사물 등)의 개수를 요약 전체 단어 수와 비교하여 요약의 “정보 밀도”를 추정합니다. 엔티티 추출에는 LLM을 사용합니다. Chain of Density 논문(https://arxiv.org/abs/2309.04269)에서 사용된 엔티티 밀도 개념과 유사합니다.
- 품질 등급: LLM 평가자가 요약을
poor,ok,excellent중 하나로 등급을 매깁니다. 그런 다음 이 등급을 점수(poor는 0.0,ok는 0.5,excellent는 1.0)로 매핑하여 종합 성능 평가에 사용합니다.
- 평가 과정을 조정하려면
summarization_evaluation_system_prompt및summarization_evaluation_prompt를 수정하세요.
- 이 스코어러는 내부적으로 litellm을 사용합니다.
score메서드는 요약 대상이 되는 원본 텍스트가input열에 존재한다고 가정합니다. 데이터셋에서 다른 이름을 사용하는 경우column_map사용을 참고하세요.
OpenAIModerationScorer
OpenAIModerationScorer는 OpenAI의 Moderation API를 사용하여 AI 시스템의 출력값에 혐오 발언이나 노골적인 콘텐츠와 같은 금지된 내용이 포함되어 있는지 확인합니다.
- AI 출력을 OpenAI Moderation 엔드포인트로 전송하고, 콘텐츠가 플래그되었는지 여부를 나타내는 구조화된 응답을 반환합니다.
EmbeddingSimilarityScorer
EmbeddingSimilarityScorer는 AI 시스템의 출력 임베딩과 데이터셋에 있는 대상 텍스트 임베딩 사이의 코사인 유사도를 계산합니다. 이는 AI 출력이 참조 텍스트와 얼마나 유사한지 측정하는 데 유용합니다.
threshold(float): 두 텍스트가 유사하다고 간주되기 위해 필요한 최소 코사인 유사도 점수(-1에서 1 사이, 기본값은0.5)입니다.
EmbeddingSimilarityScorer를 사용하는 방법을 보여줍니다:
ValidJSONScorer
ValidJSONScorer는 AI 시스템의 출력이 유효한 JSON인지 확인합니다. 이 스코어러는 출력이 JSON 형식일 것으로 예상되고 해당 JSON의 유효성을 검증해야 할 때 유용합니다.
ValidXMLScorer
ValidXMLScorer는 AI 시스템의 출력이 올바른 XML 형식인지 확인합니다. XML 형식의 출력을 기대하는 경우에 유용합니다.
PydanticScorer
PydanticScorer는 AI 시스템의 출력을 Pydantic 모델에 따라 검증하여, 지정된 스키마나 데이터 구조를 충족하는지 확인합니다.
RAGAS - ContextEntityRecallScorer
ContextEntityRecallScorer는 AI 시스템의 출력과 제공된 컨텍스트에서 개체를 추출한 뒤, 재현율 점수를 계산하여 컨텍스트 재현율을 추정합니다. 이 점수 계산은 RAGAS 평가 라이브러리를 기반으로 합니다.
- LLM을 사용하여 출력과 컨텍스트에서 고유한 엔티티를 추출하고 재현율을 계산합니다.
- 재현율(Recall) 은 컨텍스트의 중요한 엔티티 중 출력에 포함된 비율을 나타냅니다.
- 재현율 점수가 포함된 사전을 반환합니다.
- 데이터셋에
context열이 있어야 합니다. 열 이름이 다르면column_map속성을 사용하세요.
RAGAS - ContextRelevancyScorer
ContextRelevancyScorer는 제공된 컨텍스트가 AI 시스템의 출력과 얼마나 관련성이 높은지를 평가합니다. 이는 RAGAS 평가 라이브러리를 기반으로 합니다.
- LLM을 사용해 출력에 대한 컨텍스트의 관련성을 0과 1 사이의 값으로 평가합니다.
relevancy_score를 포함한 사전을 반환합니다.
- 데이터셋에
context열이 있어야 합니다. 열 이름이 다르면column_map속성을 사용하세요. - 관련성을 어떻게 평가할지 정의하려면
relevancy_prompt를 사용자 정의하세요.
openai/gpt-4o, openai/text-embedding-3-small 같은 OpenAI 모델을 사용해 보정되었습니다. 다른 제공자를 사용해 보고 싶다면 model_id 필드를 변경해 다른 모델을 사용할 수 있습니다. 예를 들어 Anthropic 모델을 사용하려면 다음과 같이 합니다: