- 트레이닝 시작 시 멈춤: W&B의 멀티프로세싱이 분산 트레이닝 프레임워크의 멀티프로세싱과 간섭할 수 있습니다.
- 트레이닝 종료 시 멈춤: W&B 프로세스가 언제 종료해야 하는지 알지 못합니다.
시작 시 멈춤 문제 해결
0.13.0 이상에서는 기본으로 활성화되는 W&B Service를 사용하세요. 이전 버전을 사용 중이라면 SDK를 업그레이드하세요:
0.12.5부터 0.12.x까지는 W&B Service를 명시적으로 활성화하세요:
0.12.4 이하 버전에서는 WANDB_START_METHOD 환경 변수를 설정하세요:
마지막에 멈추는 문제 해결
wandb.finish()를 호출하여 W&B에 run이 완료되었음을 알리세요:
Experiments Run Crashes