- トレーニング開始時にハングする: W&B のマルチプロセッシングが、分散トレーニング用フレームワークのマルチプロセッシングと干渉することがあります。
- トレーニング終了時にハングする: W&B のプロセスは、いつ終了すべきかを認識できません。
起動時のハングを解消する
0.13.0 以降では、W&B Service がデフォルトで有効です。古いバージョンを使用している場合は、SDK をアップグレードしてください。
0.12.5 から 0.12.x までは、W&B Service を明示的に有効にしてください:
0.12.4 以前では、WANDB_START_METHOD 環境変数を設定してください。
終了時のハングを解消する
wandb.finish() を呼び出し、run が完了したことを W&B に通知します:
Experiments Run のクラッシュ