메인 콘텐츠로 건너뛰기
GitHub 소스

function pr_curve

pr_curve(
    y_true: 'Iterable[T] | None' = None,
    y_probas: 'Iterable[numbers.Number] | None' = None,
    labels: 'list[str] | None' = None,
    classes_to_plot: 'list[T] | None' = None,
    interp_size: 'int' = 21,
    title: 'str' = 'Precision-Recall Curve',
    split_table: 'bool' = False
) → CustomChart
Precision-Recall (PR) 커브를 생성합니다. Precision-Recall 커브는 불균형 데이터셋에서 분류기를 평가할 때 특히 유용합니다. PR 커브 아래 면적이 크다는 것은 높은 정밀도(낮은 위양성 비율)와 높은 재현율(낮은 위음성 비율)을 모두 의미합니다. 이 커브는 다양한 임곗값에서 위양성과 위음성 간의 균형에 대한 인사이트를 제공하여 모델의 성능을 평가하는 데 도움을 줍니다. Args:
  • y_true: 실제 이진 레이블. 형태는 (num_samples,)여야 합니다.
  • y_probas: 각 클래스에 대한 예측 점수 또는 확률. 확률 추정값, 신뢰도 점수, 또는 임곗값을 적용하지 않은 결정 값이 될 수 있습니다. 형태는 (num_samples, num_classes)여야 합니다.
  • labels: 플롯 해석을 쉽게 하기 위해 y_true의 숫자 값을 대체할 클래스 이름의 선택적 리스트. 예를 들어, labels = ['dog', 'cat', 'owl']을 사용하면 플롯에서 0은 ‘dog’, 1은 ‘cat’, 2는 ‘owl’로 대체됩니다. 제공되지 않으면 y_true의 숫자 값이 그대로 사용됩니다.
  • classes_to_plot: 플롯에 포함할 y_true의 고유 클래스 값 리스트(선택 사항). 지정하지 않으면 y_true에 있는 모든 고유 클래스가 플롯됩니다.
  • interp_size: 재현율 값을 보간할 지점 개수. 재현율 값은 [0, 1] 범위에서 균일하게 분포된 interp_size개의 지점으로 고정되며, 여기에 맞추어 정밀도가 보간됩니다.
  • title: 플롯의 제목. 기본값은 “Precision-Recall Curve”입니다.
  • split_table: 테이블을 W&B UI에서 별도의 섹션으로 분리할지 여부. True이면 테이블은 “Custom Chart Tables”라는 섹션에 표시됩니다. 기본값은 False입니다.
Returns:
  • CustomChart: W&B에 로그할 수 있는 커스텀 차트 객체. 차트를 로그하려면 wandb.log()에 전달하십시오.
Raises:
  • wandb.Error: NumPy, pandas 또는 scikit-learn이 설치되어 있지 않은 경우.
Example:
import wandb

# 스팸 탐지 예시 (이진 분류)
y_true = [0, 1, 1, 0, 1]  # 0 = 스팸 아님, 1 = 스팸
y_probas = [
    [0.9, 0.1],  # 첫 번째 샘플의 예측 확률 (스팸 아님)
    [0.2, 0.8],  # 두 번째 샘플 (스팸), 이하 동일
    [0.1, 0.9],
    [0.8, 0.2],
    [0.3, 0.7],
]

labels = ["not spam", "spam"]  # 가독성을 위한 선택적 클래스 이름

with wandb.init(project="spam-detection") as run:
    pr_curve = wandb.plot.pr_curve(
         y_true=y_true,
         y_probas=y_probas,
         labels=labels,
         title="Precision-Recall Curve for Spam Detection",
    )
    run.log({"pr-curve": pr_curve})