Skip to main content
W&B를 분산 트레이닝과 함께 사용할 때 트레이닝이 멈추는 일반적인 이유는 두 가지입니다:
  1. 트레이닝 시작 시 멈춤: W&B의 멀티프로세싱이 분산 트레이닝 프레임워크의 멀티프로세싱과 간섭할 수 있습니다.
  2. 트레이닝 종료 시 멈춤: W&B 프로세스가 언제 종료해야 하는지 알지 못합니다.

시작 시 멈춤 문제 해결

W&B SDK 0.13.0 이상에서는 기본으로 활성화되는 W&B Service를 사용하세요. 이전 버전을 사용 중이라면 SDK를 업그레이드하세요:
pip install --upgrade wandb
W&B SDK 0.12.5부터 0.12.x까지는 W&B Service를 명시적으로 활성화하세요:
def main():
    wandb.require("service")
    # 나머지 스크립트
W&B SDK 0.12.4 이하 버전에서는 WANDB_START_METHOD 환경 변수를 설정하세요:
export WANDB_START_METHOD=thread

마지막에 멈추는 문제 해결

트레이닝 스크립트 마지막에 wandb.finish()를 호출하여 W&B에 run이 완료되었음을 알리세요:
wandb.finish()
이렇게 하면 모든 데이터가 업로드되고 W&B 프로세스가 정상적으로 종료됩니다. 자세한 내용은 분산 트레이닝을 참조하세요.
Experiments Run Crashes