id 매개변수로 지정해야 합니다:
W&B는 run을 저장할 W&B 프로젝트 이름을 지정할 것을 권장합니다.
resume 파라미터에 다음 인수 중 하나를 전달하여 W&B가 어떻게 동작할지 결정합니다. 각 경우마다 W&B는 먼저 run ID가 이미 존재하는지 확인합니다.
| Argument | Description | Run ID exists | Run ID does not exist | Use case |
|---|---|---|---|---|
"must" | 지정된 run ID의 run을 W&B가 반드시 재개해야 합니다. | W&B가 동일한 run ID의 run을 재개합니다. | W&B가 오류를 발생시킵니다. | 동일한 run ID를 반드시 사용해서 run을 다시 시작해야 하는 경우 |
"allow" | run ID가 존재하는 경우 W&B가 run을 재개하도록 허용합니다. | W&B가 동일한 run ID의 run을 재개합니다. | W&B가 지정된 run ID로 새로운 run을 초기화합니다. | 기존 run을 덮어쓰지 않고 run을 다시 시작하려는 경우 |
"never" | 지정된 run ID의 run을 W&B가 절대 재개하지 못하도록 합니다. | W&B가 오류를 발생시킵니다. | W&B가 지정된 run ID로 새로운 run을 초기화합니다. |
resume="auto"를 지정해서 W&B가 사용자를 대신해 run을 자동으로 다시 시작하도록 할 수도 있습니다. 다만 반드시 동일한 디렉터리에서 run을 다시 시작해야 합니다. 자세한 내용은 run을 자동으로 재개하도록 활성화 섹션을 참고하세요.
아래 모든 예시에서 <>로 둘러싸인 값은 자신의 값으로 바꿔 사용하세요.
동일한 run ID를 반드시 사용해 run 재개하기
resume파라미터를"must"로 설정합니다 (resume="must")- 중지되었거나 크래시가 발생한 run의 run ID를 지정합니다
기존 run을 덮어쓰지 않고 재개하기
resume 파라미터를 "allow" (resume="allow")로 설정하세요. 중단되었거나 크래시된 run의 run ID를 제공해야 합니다. 다음 코드 스니펫은 W&B Python SDK로 이를 수행하는 방법을 보여 줍니다:
run을 자동으로 재개하도록 설정하기
- W&B Python SDK
- Shell script
다음 코드 예시는 Python SDK로 W&B run ID를 지정하는 방법을 보여줍니다.
<>로 둘러싸인 값을 모두 사용자 환경에 맞게 바꾸십시오:Users/AwesomeEmployee/Desktop/ImageClassify/training/ 디렉터리에서 train.py라는 Python 스크립트를 실행한다고 가정해 보겠습니다. train.py 스크립트는 자동 재개가 가능하도록 run을 생성합니다. 이후 트레이닝 스크립트가 중지되었다면, 이 run을 재개하려면 Users/AwesomeEmployee/Desktop/ImageClassify/training/ 디렉터리에서 다시 train.py 스크립트를 실행해야 합니다.
파일 시스템을 공유할 수 없다면
WANDB_RUN_ID 환경 변수를 지정하거나 W&B Python SDK를 사용해 run ID를 전달하십시오. run ID에 대한 자세한 내용은 “What are runs?” 페이지의 Custom run IDs 섹션을 참고하십시오.선점형 Sweeps run 재시작
mark_preempting 함수를 사용하여 중단된 스윕 run을 자동으로 다시 대기열에 넣을 수 있습니다. 예를 들어:
| Status | Behavior |
|---|---|
| Status code 0 | run이 정상적으로 종료된 것으로 간주되며, 다시 큐에 추가되지 않습니다. |
| Nonzero status | W&B가 해당 run을 스윕에 연결된 run 큐에 자동으로 추가합니다. |
| No status | run이 스윕 run 큐에 추가됩니다. 스윕 에이전트는 큐가 빌 때까지 run 큐에서 run을 가져와 실행합니다. 큐가 비면, 스윕 큐는 스윕 검색 알고리즘을 기반으로 새로운 run을 생성하기 시작합니다. |