Weave의 주요 축
- 애플리케이션에서 발생하는 모든 LLM 호출과 입력, 출력을 한눈에 볼 수 있는 가시성
- 큐레이션된 테스트 케이스를 기반으로 성능을 측정하는 체계적인 평가
- 무엇이 어떻게 변경되었는지 이해할 수 있도록 프롬프트, 모델, 데이터에 대한 버전 추적
- 서로 다른 프롬프트와 모델을 비교해 볼 수 있는 실험 기능
- 사람의 판단과 주석을 수집하는 피드백 수집
- LLM의 안전성과 품질을 위해 가드레일과 스코어러를 활용한 운영 환경 모니터링
Traces
- 각 애플리케이션 사용 과정의 입력과 출력을 확인합니다.
- LLM 응답을 생성하는 데 사용된 소스 문서를 확인합니다.
- LLM 호출의 비용, 토큰 수, 레이턴시를 확인합니다.
- 특정 프롬프트와 답변이 어떻게 생성되는지까지 자세히 분석합니다.
- 사용자로부터 응답에 대한 피드백을 수집합니다.
- 코드에서 Weave ops and calls를 사용하여 함수에서 어떤 일이 일어나는지 추적할 수 있습니다.
평가
- 어떤 모델/프롬프트 버전이 어떤 성능을 냈는지 쉽게 추적할 수 있습니다.
- 하나 이상의 스코어링 함수를 사용해 응답을 평가할 메트릭을 정의할 수 있습니다.
- 여러 메트릭에 걸쳐 두 개 이상의 서로 다른 평가를 비교할 수 있습니다. 개별 샘플의 성능을 서로 대비해 볼 수 있습니다.
모든 것을 버전으로 관리하세요
프롬프트와 모델 실험하기
피드백 수집
프로덕션 모니터링
Weave 사용 시작하기
- https://wandb.ai/site에서 Weights & Biases 계정을 만들고, https://wandb.ai/authorize에서 API 키를 가져옵니다.
- Weave를 설치합니다:
- 스크립트에서 Weave를 임포트하고 프로젝트를 초기화합니다:
- 지원되는 인테그레이션에만 의존하는 것뿐 아니라, 호출 함수에 한 줄만 추가해 사용자 정의 함수에 대한 트레이스를 Weave로 로깅할 수도 있습니다.
@weave.op()(Python)으로 데코레이트하거나 weave.op()(TypeScript)로 래핑하면, Weave가 해당 함수의 코드, 입력, 출력, 실행 메타데이터를 자동으로 캡처합니다.