메인 콘텐츠로 건너뛰기
run이 중지되거나 크래시되는 경우 어떻게 동작해야 할지 지정합니다. run을 재개하거나 자동 재개를 활성화하려면, 해당 run과 연결된 고유한 run ID를 id 매개변수로 지정해야 합니다:
import wandb
with wandb.init(entity="<entity>", project="<project>", id="<run ID>", resume="<resume>") as run:
        # 트레이닝 코드를 여기에 작성하세요
W&B는 run을 저장할 W&B 프로젝트 이름을 지정할 것을 권장합니다.
resume 파라미터에 다음 인수 중 하나를 전달하여 W&B가 어떻게 동작할지 결정합니다. 각 경우마다 W&B는 먼저 run ID가 이미 존재하는지 확인합니다.
ArgumentDescriptionRun ID existsRun ID does not existUse case
"must"지정된 run ID의 run을 W&B가 반드시 재개해야 합니다.W&B가 동일한 run ID의 run을 재개합니다.W&B가 오류를 발생시킵니다.동일한 run ID를 반드시 사용해서 run을 다시 시작해야 하는 경우
"allow"run ID가 존재하는 경우 W&B가 run을 재개하도록 허용합니다.W&B가 동일한 run ID의 run을 재개합니다.W&B가 지정된 run ID로 새로운 run을 초기화합니다.기존 run을 덮어쓰지 않고 run을 다시 시작하려는 경우
"never"지정된 run ID의 run을 W&B가 절대 재개하지 못하도록 합니다.W&B가 오류를 발생시킵니다.W&B가 지정된 run ID로 새로운 run을 초기화합니다.
resume="auto"를 지정해서 W&B가 사용자를 대신해 run을 자동으로 다시 시작하도록 할 수도 있습니다. 다만 반드시 동일한 디렉터리에서 run을 다시 시작해야 합니다. 자세한 내용은 run을 자동으로 재개하도록 활성화 섹션을 참고하세요. 아래 모든 예시에서 <>로 둘러싸인 값은 자신의 값으로 바꿔 사용하세요.

동일한 run ID를 반드시 사용해 run 재개하기

run이 중지되었거나 크래시가 발생했거나 실패한 경우, 동일한 run ID를 사용해 run을 재개할 수 있습니다. 그러려면 run을 초기화할 때 다음을 지정하세요:
  • resume 파라미터를 "must"로 설정합니다 (resume="must")
  • 중지되었거나 크래시가 발생한 run의 run ID를 지정합니다
다음 코드는 W&B Python SDK를 사용하여 이를 수행하는 방법을 보여줍니다:
with wandb.init(entity="<entity>", project="<project>", id="<run ID>", resume="must") as run:
        # 트레이닝 코드를 여기에 작성하세요
여러 프로세스가 동시에 동일한 id를 사용하면 예기치 않은 결과가 발생할 수 있습니다.여러 프로세스를 다루는 방법에 대한 자세한 내용은 분산 트레이닝 실험 로깅을 참조하세요.

기존 run을 덮어쓰지 않고 재개하기

중단되었거나 크래시된 run을 기존 run을 덮어쓰지 않고 재개할 수 있습니다. 이는 프로세스가 정상적으로 종료되지 않았을 때 특히 유용합니다. 다음 번에 W&B를 시작하면 W&B는 마지막 스텝부터 로깅을 다시 시작합니다. W&B에서 run을 초기화할 때 resume 파라미터를 "allow" (resume="allow")로 설정하세요. 중단되었거나 크래시된 run의 run ID를 제공해야 합니다. 다음 코드 스니펫은 W&B Python SDK로 이를 수행하는 방법을 보여 줍니다:
import wandb

with wandb.init(entity="<entity>", project="<project>", id="<run ID>", resume="allow") as run:
        # 트레이닝 코드를 여기에 작성하세요

run을 자동으로 재개하도록 설정하기

다음 코드 예시는 Python SDK 또는 환경 변수를 사용해 run을 자동으로 재개하도록 설정하는 방법을 보여줍니다.
다음 코드 예시는 Python SDK로 W&B run ID를 지정하는 방법을 보여줍니다.<>로 둘러싸인 값을 모두 사용자 환경에 맞게 바꾸십시오:
with wandb.init(entity="<entity>", project="<project>", id="<run ID>", resume="<resume>") as run:
        # 여기에 트레이닝 코드를 작성합니다
자동 재개는 실패한 프로세스와 동일한 파일 시스템에서 프로세스를 다시 시작하는 경우에만 동작합니다.
예를 들어 Users/AwesomeEmployee/Desktop/ImageClassify/training/ 디렉터리에서 train.py라는 Python 스크립트를 실행한다고 가정해 보겠습니다. train.py 스크립트는 자동 재개가 가능하도록 run을 생성합니다. 이후 트레이닝 스크립트가 중지되었다면, 이 run을 재개하려면 Users/AwesomeEmployee/Desktop/ImageClassify/training/ 디렉터리에서 다시 train.py 스크립트를 실행해야 합니다.
파일 시스템을 공유할 수 없다면 WANDB_RUN_ID 환경 변수를 지정하거나 W&B Python SDK를 사용해 run ID를 전달하십시오. run ID에 대한 자세한 내용은 “What are runs?” 페이지의 Custom run IDs 섹션을 참고하십시오.

선점형 Sweeps run 재시작

중단된 스윕 run을 자동으로 다시 대기열에 넣습니다. 이는 선점이 발생할 수 있는 컴퓨팅 환경(예: 선점형 큐에 있는 SLURM 작업, EC2 스팟 인스턴스, Google Cloud 선점형 VM)에서 스윕 에이전트를 실행하는 경우에 특히 유용합니다. mark_preempting 함수를 사용하여 중단된 스윕 run을 자동으로 다시 대기열에 넣을 수 있습니다. 예를 들어:
with wandb.init() as run:
    run.mark_preempting()
다음 표는 스윕 run의 종료 상태에 따라 W&B가 run을 어떻게 처리하는지 설명합니다.
StatusBehavior
Status code 0run이 정상적으로 종료된 것으로 간주되며, 다시 큐에 추가되지 않습니다.
Nonzero statusW&B가 해당 run을 스윕에 연결된 run 큐에 자동으로 추가합니다.
No statusrun이 스윕 run 큐에 추가됩니다. 스윕 에이전트는 큐가 빌 때까지 run 큐에서 run을 가져와 실행합니다. 큐가 비면, 스윕 큐는 스윕 검색 알고리즘을 기반으로 새로운 run을 생성하기 시작합니다.