LoRA용으로 W&B Inference를 사용해야 하는 이유
- 한 번 업로드하면 즉시 배포 — 서버를 관리할 필요가 없습니다.
- 아티팩트 버저닝으로 어떤 버전이 현재 서비스 중인지 정확하게 추적할 수 있습니다.
- 전체 모델 가중치 대신 작은 LoRA 파일만 교체해서 몇 초 만에 모델을 업데이트할 수 있습니다.
워크플로우
- LoRA 가중치를 W&B 아티팩트로 업로드합니다
- API에서 아티팩트 URI를 모델 이름으로 사용합니다
- W&B가 추론 시 가중치를 동적으로 로드합니다
사전 준비 사항
LoRA를 추가하고 사용하는 방법
- 다른 곳에서 트레이닝한 LoRA 업로드하기
- W&B로 새 LoRA 트레이닝하기
직접 만든 커스텀 LoRA 디렉토리를 W&B 아티팩트로 업로드하세요. 로컬 환경, 클라우드 제공업체, 파트너 서비스 등 다른 곳에서 LoRA를 트레이닝한 경우에 적합합니다.아래 Python 코드는 로컬에 저장된 LoRA 가중치를 버전 관리되는 아티팩트로 W&B에 업로드합니다. 필요한 메타데이터(베이스 모델과 스토리지 리전)를 포함한
lora 타입 아티팩트를 생성하고, 로컬 디렉토리의 LoRA 파일을 추가한 뒤, 이를 추론에 사용할 수 있도록 W&B 프로젝트에 로그합니다.주요 요구 사항
Inference에서 직접 만든 LoRA를 사용하려면:- LoRA는 Supported Base Models 섹션에 나열된 모델 중 하나를 사용해 트레이닝해야 합니다.
- PEFT 포맷으로 저장되어 있고, W&B 계정에
lora타입 아티팩트로 저장되어 있어야 합니다. - 지원되는 최대 rank는 16입니다.
- LoRA는 낮은 레이턴시를 위해
storage_region="coreweave-us"에 저장되어야 합니다. - 업로드 시 트레이닝에 사용한 베이스 모델 이름(예:
meta-llama/Llama-3.1-8B-Instruct)을 포함해야 합니다. 이렇게 해야 W&B가 올바른 모델로 로드할 수 있습니다.
지원되는 베이스 모델
wandb.base_model에는 정확한 문자열을 사용해야 합니다). 더 많은 모델이 곧 추가될 예정입니다.
meta-llama/Llama-3.1-70B-Instructmeta-llama/Llama-3.1-8B-InstructOpenPipe/Qwen3-14B-InstructQwen/Qwen3-30B-A3B-Instruct-2507