id パラメータに指定する必要があります。
W&B は、run を保存する W&B プロジェクトの名前を指定することを推奨しています。
resume パラメータに次のいずれかの引数を渡して、W&B の動作を制御します。いずれの場合も、まず W&B は run ID が既に存在するかどうかを確認します。
| Argument | Description | Run ID exists | Run ID does not exist | Use case |
|---|---|---|---|---|
"must" | W&B は、指定された run ID の run を必ず再開します。 | W&B が同じ run ID の run を再開します。 | W&B がエラーを送出します。 | 同じ run ID を必ず使用して run を再開する場合。 |
"allow" | run ID が存在する場合は、その run を再開することを W&B に許可します。 | W&B が同じ run ID の run を再開します。 | W&B が指定された run ID で新しい run を初期化します。 | 既存の run を上書きせずに run を再開したい場合。 |
"never" | W&B に、run ID で指定された run を決して再開しないよう指示します。 | W&B がエラーを送出します。 | W&B が指定された run ID で新しい run を初期化します。 |
resume="auto" を指定して、W&B に run の再開を自動的に試行させることもできます。ただし、その場合は必ず同じディレクトリから run を再開する必要があります。詳しくは、run を自動的に再開できるようにする セクションを参照してください。
以下のすべての例で、<> で囲まれた値はご自身の値に置き換えてください。
必ず同じ run ID を使用して run を再開する
resumeパラメータを"must"(resume="must")に設定する- 停止またはクラッシュした run の run ID を指定する
既存のrunを上書きせずにrunを再開する
resume パラメータを "allow"(resume="allow")に設定します。停止またはクラッシュしたrunのrun IDを指定します。次のコードスニペットは、W&B Python SDKでこれを行う方法を示しています。
run を自動再開できるようにする
- W&B Python SDK
- Shell script
次のコードスニペットは、Python SDK を使って W&B run ID を指定する方法を示します。
<> で囲まれた値をご自身の値に置き換えてください:Users/AwesomeEmployee/Desktop/ImageClassify/training/ というディレクトリ内で train.py という Python スクリプトを実行したとします。train.py の中では、自動再開を有効にする run を作成しています。次に、この学習スクリプトが停止したとします。この run を再開するには、Users/AwesomeEmployee/Desktop/ImageClassify/training/ 内で train.py スクリプトを再度起動する必要があります。
ファイルシステムを共有できない場合は、
WANDB_RUN_ID 環境変数を指定するか、W&B Python SDK で run ID を渡してください。run ID の詳細については、「What are runs?」ページの Custom run IDs セクションを参照してください。プリエンプト可能な Sweeps の run を再開する
mark_preempting 関数を使用すると、中断された sweep run を自動的に再キューできます。例:
| Status | Behavior |
|---|---|
| Status code 0 | run は正常に終了したとみなされ、再キューされません。 |
| Nonzero status | W&B は、その run をスイープに関連付けられた run キューに自動的に追加します。 |
| No status | run はスイープ run キューに追加されます。スイープエージェントは、キューが空になるまで run キューから run を順に取得して実行します。キューが空になると、スイープキューはスイープ検索アルゴリズムに基づいて新しい run の生成を再開します。 |