Skip to main content
W&B を分散トレーニングで使用するときにトレーニングがハングする主な原因は、次の 2 つです。
  1. トレーニング開始時にハングする: W&B のマルチプロセッシングが、分散トレーニング用フレームワークのマルチプロセッシングと干渉することがあります。
  2. トレーニング終了時にハングする: W&B のプロセスは、いつ終了すべきかを認識できません。

起動時のハングを解消する

W&B SDK 0.13.0 以降では、W&B Service がデフォルトで有効です。古いバージョンを使用している場合は、SDK をアップグレードしてください。
pip install --upgrade wandb
W&B SDK 0.12.5 から 0.12.x までは、W&B Service を明示的に有効にしてください:
def main():
    wandb.require("service")
    # 残りのスクリプト
W&B SDK 0.12.4 以前では、WANDB_START_METHOD 環境変数を設定してください。
export WANDB_START_METHOD=thread

終了時のハングを解消する

トレーニングスクリプトの最後で wandb.finish() を呼び出し、run が完了したことを W&B に通知します:
wandb.finish()
これにより、すべてのデータが確実にアップロードされ、W&B プロセスが正常に終了します。 詳細は、分散トレーニングをご覧ください。
Experiments Run のクラッシュ