메인 콘텐츠로 건너뛰기
이 기능은 Python SDK를 통해서만 사용할 수 있습니다.
일부 조직은 Large Language Model(LLM) 워크플로에서 이름, 전화번호, 이메일 주소와 같은 개인 식별 정보(PII)를 처리합니다. 이 데이터를 Weights & Biases (W&B) Weave에 저장하면 규정 준수 및 보안 측면에서 위험이 발생할 수 있습니다. Sensitive Data Protection 기능을 사용하면 trace가 Weave 서버로 전송되기 전에 개인 식별 정보(PII)를 자동으로 마스킹할 수 있습니다. 이 기능은 Microsoft Presidio를 Weave Python SDK에 통합하며, 이를 통해 SDK 수준에서 마스킹 설정을 제어할 수 있습니다. Sensitive Data Protection 기능은 Python SDK에 다음과 같은 기능을 제공합니다:
  • weave.init 호출에서 PII 마스킹을 활성화하거나 비활성화할 수 있는 redact_pii 설정
  • redact_pii = True일 때 일반적인 엔터티를 자동으로 마스킹
  • 설정 가능한 redact_pii_fields 설정을 사용해 마스킹할 필드를 사용자 정의

PII 비식별화 활성화

Weave에서 Sensitive Data Protection 기능을 사용하려면 다음 단계를 완료하세요:
  1. 필요한 종속 패키지를 설치합니다:
    pip install presidio-analyzer presidio-anonymizer
    
  2. weave.init 호출을 수정하여 비식별화를 활성화합니다. redact_pii=True로 설정하면, 일반 엔티티가 기본적으로 비식별화됩니다:
    import weave
    
    weave.init("my-project", settings={"redact_pii": True})
    
  3. (선택 사항) redact_pii_fields 매개변수를 사용하여 비식별화할 필드를 사용자 지정합니다:
    weave.init("my-project", settings={"redact_pii": True, "redact_pii_fields":["CREDIT_CARD", "US_SSN"]})
    
    감지 및 비식별화가 가능한 엔티티의 전체 목록은 Presidio에서 지원하는 PII 엔티티를 참조하세요.

기본적으로 마스킹되는 Entities

PII 마스킹이 활성화되면 다음 Entities가 자동으로 마스킹됩니다:
  • CREDIT_CARD
  • CRYPTO
  • EMAIL_ADDRESS
  • ES_NIF
  • FI_PERSONAL_IDENTITY_CODE
  • IBAN_CODE
  • IN_AADHAAR
  • IN_PAN
  • IP_ADDRESS
  • LOCATION
  • PERSON
  • PHONE_NUMBER
  • UK_NHS
  • UK_NINO
  • US_BANK_NUMBER
  • US_DRIVER_LICENSE
  • US_PASSPORT
  • US_SSN

REDACT_KEYS로 민감한 키 마스킹하기

PII 마스킹에 더해, Weave SDK는 REDACT_KEYS를 사용하여 커스텀 키를 마스킹하는 기능도 제공합니다. 이는 PII 범주에는 속하지 않지만 비공개로 유지해야 하는 추가 민감 데이터를 보호해야 할 때 유용합니다. 예를 들면 다음과 같습니다:
  • API 키
  • 인증 헤더
  • 토큰
  • 내부 ID
  • 설정 값

사전 정의된 REDACT_KEYS

Weave에서는 기본적으로 다음 민감한 키들을 자동으로 마스킹합니다:
[
  "api_key",
  "auth_headers",
  "authorization"
]

사용자 정의 키 추가

트레이스에서 마스킹(제거)하려는 사용자 정의 키를 이 목록에 추가하여 확장할 수 있습니다:
import weave
from weave.utils import sanitize

client = weave.init("my-project", settings={"redact_pii": True})

# 리댁션할 커스텀 키 추가
sanitize.add_redact_key("client_id")
sanitize.add_redact_key("token")

client_id = "123"
token = "789"

@weave.op
def test(client_id, token):
    return client_id + token

test(client_id, token)
Weave UI에서 보면 client_idtoken 값은 "REDACTED"로 표시됩니다:
client_id = "REDACTED"
token = "REDACTED"

사용 관련 정보

  • 이 기능은 Python SDK에서만 사용할 수 있습니다.
  • Presidio 의존성으로 인해 마스킹을 활성화하면 처리 시간이 증가합니다.