W&B Python SDK를 사용하여 W&B Runs에서 아티팩트를 생성할 수 있습니다. 파일, 디렉터리, URI, 그리고 병렬 run의 파일을 아티팩트에 추가할 수 있습니다. 파일을 아티팩트에 추가한 후에는 아티팩트를 W&B Server 또는 자체 프라이빗 서버에 저장합니다. 각 아티팩트는 하나의 run에 연결됩니다.
Amazon S3에 저장된 파일과 같은 외부 파일을 추적하는 방법은 외부 파일 추적하기 페이지를 참고하세요.
다음 세 단계로 W&B Artifact를 생성합니다:
wandb.Artifact()로 아티팩트 Python 객체를 생성하기
- 아티팩트에 하나 이상의 파일 추가하기
- 아티팩트를 W&B 서버에 저장하기
1. wandb.Artifact()로 아티팩트 Python 객체 생성하기
wandb.Artifact() 클래스를 초기화해 아티팩트 객체를 생성한다. 다음 매개변수를 지정한다:
- Name: 아티팩트의 이름. 이름은 고유하고, 의미가 잘 드러나며, 기억하기 쉬워야 한다.
- Type: 아티팩트의 유형. 유형은 단순하고 설명적이어야 하며, 머신러닝 파이프라인의 하나의 단계에 대응해야 한다. 일반적인 아티팩트 유형으로는
'dataset' 또는 'model' 등이 있다.
W&B는 W&B App에서 방향성 비순환 그래프를 생성하기 위해 사용자가 제공한 “name”과 “type”을 사용한다. 자세한 내용은 아티팩트 그래프 탐색 및 순회를 참조하라.
아티팩트는 타입과 관계없이 서로 같은 이름을 가질 수 없다. 즉, dataset 타입에서 cats라는 이름의 아티팩트를 생성했다면, model 타입에서 동일한 이름의 다른 아티팩트를 생성할 수 없다.
아티팩트 객체를 초기화할 때 설명과 메타데이터를 선택적으로 제공할 수 있다. 사용 가능한 속성과 매개변수에 대한 자세한 내용은 Python SDK Reference Guide의 wandb.Artifact 클래스 정의를 참조하라.
아티팩트 객체를 생성하려면 다음 코드 스니펫을 복사해 붙여넣고, <name> 및 <type> 플레이스홀더를 원하는 값으로 바꿔라:
import wandb
# 아티팩트 객체 생성
artifact = wandb.Artifact(name="<name>", type="<type>")
파일, 디렉터리, Amazon S3와 같은 외부 URI 참조 등을(를) 아티팩트 객체에 추가합니다.
단일 파일을 추가하려면 아티팩트 객체의 Artifact.add_file() 메서드를 사용하세요:
artifact.add_file(local_path="path/to/file.txt", name="<name>")
디렉터리를 추가하려면 Artifact.add_dir() 메서드를 사용하세요:
artifact.add_dir(local_path="path/to/directory", name="<name>")
서로 다른 파일 유형을 아티팩트에 추가하는 방법에 대한 자세한 내용은 다음 섹션인 아티팩트에 파일 추가하기를 참고하세요.
아티팩트를 W&B 서버에 저장합니다. run 객체의 wandb.Run.log_artifact() 메서드를 사용하여 아티팩트를 저장합니다.
with wandb.init(project="<project>", job_type="<job-type>") as run:
run.log_artifact(artifact)
wandb.Run.log_artifact() 또는 Artifact.save()를 언제 사용해야 하나요
- 새로운 아티팩트를 생성하고 특정 run과 연결하려면
wandb.Run.log_artifact()를 사용하세요.
- 새로운 run을 생성하지 않고 기존 아티팩트를 업데이트하려면
Artifact.save()를 사용하세요.
이 모든 내용을 종합하면, 다음 코드 스니펫은 데이터셋 아티팩트를 생성하고, 아티팩트에 파일을 추가한 다음, 아티팩트를 W&B에 저장하는 방법을 보여줍니다:
import wandb
artifact = wandb.Artifact(name="<name>", type="<type>")
artifact.add_file(local_path="path/to/file.txt", name="<name>")
artifact.add_dir(local_path="path/to/directory", name="<name>")
with wandb.init(project="<project>", job_type="<job-type>") as run:
run.log_artifact(artifact)
동일한 이름과 타입으로 아티팩트를 로그할 때마다 W&B는 해당 아티팩트의 새 버전을 생성합니다. 자세한 내용은 새 아티팩트 버전 생성을 참조하세요.
W&B는 업로드 성능을 높이기 위해 wandb.Run.log_artifact() 호출을 비동기적으로 수행합니다. 이로 인해 루프 안에서 아티팩트를 로그할 때 예상치 못한 동작이 발생할 수 있습니다. 예를 들어 다음과 같습니다:with wandb.init() as run:
for i in range(10):
a = wandb.Artifact(name = "race",
type="dataset",
metadata={
"index": i,
},
)
# ... 아티팩트 a에 파일을 추가합니다 ...
run.log_artifact(a)
아티팩트 버전 v0의 메타데이터에서 index 값이 0이라고 보장할 수 없습니다. 아티팩트는 임의의 순서로 로그될 수 있기 때문입니다.
다음 섹션에서는 아티팩트에 다양한 유형의 객체를 추가하는 방법을 설명합니다. 예시를 살펴보면서 다음과 같은 구조의 디렉터리가 있다고 가정하세요.
root-directory
| - hello.txt
| - images/
| -- | cat.png
| -- | dog.png
| - checkpoints/
| -- | model.h5
| - models/
| -- | model.h5
wandb.Artifact.add_file()를 사용하여 로컬에 있는 단일 파일을 아티팩트에 추가합니다. local_path 매개변수에 파일의 로컬 경로를 전달합니다.
import wandb
# 아티팩트 객체 초기화
artifact = wandb.Artifact(name="<name>", type="<type>")
# 단일 파일 추가
artifact.add_file(local_path="path/file.format")
예를 들어, 현재 로컬 작업 디렉터리에 'hello.txt'라는 파일이 있다고 가정해 보겠습니다.
artifact.add_file("hello.txt")
이제 아티팩트에는 다음 내용이 포함됩니다:
원하면 name 파라미터에 다른 이름을 지정하여 아티팩트 객체 내에서 파일 이름을 변경할 수 있습니다. 앞의 예시를 이어서 보면 다음과 같습니다.
artifact.add_file(
local_path="hello.txt",
name="new/path/hello_world.txt"
)
아티팩트는 다음과 같은 형태로 저장됩니다:
다음 표는 서로 다른 API 호출에 따라 아티팩트에 어떤 내용이 생성되는지 보여줍니다:
| API Call | Resulting artifact |
|---|
artifact.new_file('hello.txt') | hello.txt |
artifact.add_file('model.h5') | model.h5 |
artifact.add_file('checkpoints/model.h5') | model.h5 |
artifact.add_file('model.h5', name='models/mymodel.h5') | models/mymodel.h5 |
로컬 디렉터리에서 아티팩트로 여러 파일을 추가하려면 wandb.Artifact.add_dir() 메서드를 사용하세요. 디렉터리의 로컬 경로를 local_path 매개변수로 지정하세요.
import wandb
# 아티팩트 객체 초기화
artifact = wandb.Artifact(name="<name>", type="<type>")
# 아티팩트에 로컬 디렉토리 추가
artifact.add_dir(local_path="path/file.format", name="optional-prefix")
다음 표는 서로 다른 API 호출이 서로 다른 아티팩트 내용을 어떻게 생성하는지 보여 줍니다:
| API Call | 생성된 아티팩트 |
|---|
artifact.add_dir('images') | cat.png
dog.png
|
artifact.add_dir('images', name='images') | images/cat.png
images/dog.png
|
URI의 스킴이 W&B 라이브러리가 처리할 수 있는 것이라면, Artifacts는 재현성을 위해 체크섬과 기타 정보를 추적합니다.
wandb.Artifact.add_reference() 메서드를 사용해 아티팩트에 외부 URI 참조를 추가합니다. 'uri' 문자열을 사용자의 URI로 바꾸십시오. 필요하다면 name 매개변수로 아티팩트 내에서 원하는 경로를 전달할 수 있습니다.
# URI 참조 추가
artifact.add_reference(uri="uri", name="optional-name")
Artifacts는 현재 다음 URI 스킴을 지원합니다:
http(s)://: HTTP를 통해 접근 가능한 파일의 경로입니다. HTTP 서버가 ETag 및 Content-Length 응답 헤더를 지원하는 경우, 아티팩트는 ETag 형태의 체크섬과 크기 메타데이터를 추적합니다.
s3://: S3의 객체 또는 객체 프리픽스 경로입니다. 아티팩트는 참조된 객체에 대해 체크섬과 버전 정보(버킷에 객체 버전 관리가 활성화되어 있는 경우)를 추적합니다. 객체 프리픽스는 해당 프리픽스 아래의 객체를 포함하도록 확장되며, 최대 10,000개의 객체까지 포함됩니다.
gs://: GCS의 객체 또는 객체 프리픽스 경로입니다. 아티팩트는 참조된 객체에 대해 체크섬과 버전 정보(버킷에 객체 버전 관리가 활성화되어 있는 경우)를 추적합니다. 객체 프리픽스는 해당 프리픽스 아래의 객체를 포함하도록 확장되며, 최대 10,000개의 객체까지 포함됩니다.
다음 표는 API 호출에 따라 생성되는 아티팩트 내용이 어떻게 달라지는지 보여줍니다:
| API call | Resulting artifact contents |
|---|
artifact.add_reference('s3://my-bucket/model.h5') | model.h5 |
artifact.add_reference('s3://my-bucket/checkpoints/model.h5') | model.h5 |
artifact.add_reference('s3://my-bucket/model.h5', name='models/mymodel.h5') | models/mymodel.h5 |
artifact.add_reference('s3://my-bucket/images') | cat.png
dog.png
|
artifact.add_reference('s3://my-bucket/images', name='images') | images/cat.png
images/dog.png
|
대규모 데이터셋이나 분산 트레이닝의 경우, 여러 개의 병렬 run이 하나의 아티팩트에 기여해야 할 수도 있습니다.
import wandb
import time
# 이 예시는 데모 목적으로 Ray를 사용하여
# 병렬로 run을 실행합니다.
import ray
ray.init()
artifact_type = "dataset"
artifact_name = "parallel-artifact"
table_name = "distributed_table"
parts_path = "parts"
num_parallel = 5
# 병렬 writer의 각 배치는 고유한
# 그룹 이름을 가져야 합니다.
group_name = "writer-group-{}".format(round(time.time()))
@ray.remote
def train(i):
"""
writer 작업입니다. 각 writer는 아티팩트에 이미지 하나를 추가합니다.
"""
with wandb.init(group=group_name) as run:
artifact = wandb.Artifact(name=artifact_name, type=artifact_type)
# wandb 테이블에 데이터를 추가합니다.
table = wandb.Table(columns=["a", "b", "c"], data=[[i, i * 2, 2**i]])
# 아티팩트의 폴더에 테이블을 추가합니다.
artifact.add(table, "{}/table_{}".format(parts_path, i))
# 아티팩트를 upsert하면 아티팩트에 데이터를 생성하거나 추가합니다.
run.upsert_artifact(artifact)
# run을 병렬로 실행합니다.
result_ids = [train.remote(i) for i in range(num_parallel)]
# 아티팩트를 완료하기 전에 모든 writer의 파일이
# 추가되었는지 확인하기 위해 join합니다.
ray.get(result_ids)
# 모든 writer가 완료되면 아티팩트를 finish하여
# 준비 완료 상태로 표시합니다.
with wandb.init(group=group_name) as run:
artifact = wandb.Artifact(artifact_name, type=artifact_type)
# 테이블 폴더를 가리키는 "PartitionTable"을 생성하고
# 아티팩트에 추가합니다.
artifact.add(wandb.data_types.PartitionedTable(parts_path), table_name)
# finish_artifact는 아티팩트를 확정하여 이 버전에 대한
# 이후 "upsert"를 허용하지 않습니다.
run.finish_artifact(artifact)
다음 코드 스니펫은 W&B Public API를 사용하여 run에 포함된 파일(파일 이름과 URL 포함)을 나열하는 방법을 보여줍니다. <entity/project/run-id> 플레이스홀더를 본인의 값으로 교체하세요:
from wandb.apis.public.files import Files
from wandb.apis.public.api import Api
# 예시 run 객체
run = Api().run("<entity/project/run-id>")
# run의 파일을 순회하기 위한 Files 객체 생성
files = Files(api.client, run)
# 파일 순회
for file in files:
print(f"파일 이름: {file.name}")
print(f"파일 URL: {file.url}")
print(f"버킷 내 파일 경로: {file.direct_url}")
제공되는 속성과 메서드에 대한 자세한 내용은 File 클래스를 참조하세요.