sweep コマンドは --pause や --resume などのフラグを使用して、スイープが新しい W&B run を作成できるかどうかを制御します。既存の run への影響はフラグごとに異なります:
--pause: スイープを一時停止すると、スイープを再開するまでエージェントは新しい run を作成しません。既存の run は通常どおり実行を続けます。--resume: スイープを再開すると、エージェントは探索戦略に従って新しい run の作成を再開します。--stop: スイープを停止すると、エージェントは新しい run の作成を停止します。既存の run は完了まで実行されます。--cancel: スイープをキャンセルすると、エージェントは現在実行中のすべての run を直ちに強制終了し、新しい run の作成も停止します。
スイープを一時停止する
wandb sweep --pause コマンドを使用してスイープを一時停止します。一時停止したいスイープの ID を指定してください。
スイープを再開する
wandb sweep --resume コマンドで再開できます。スイープは、そのサーチ戦略に従って新しい run を再び作成し始めます。再開するスイープの ID を指定します。
スイープを停止する
wandb sweep --stop コマンドを使用します。
スイープをキャンセルする
wandb sweep --cancel コマンドを使用し、キャンセルするスイープの ID を指定してください。
スイープとrunのステータスを理解する
主な違い
- スイープのステータス は新しい run を作成するかどうかを制御します(Running、Paused、Stopped、Cancelled、Finished、Failed、Crashed)
- run のステータス は個々の run の実行状態を示します(Pending、Running、Finished、Failed、Crashed、Killed)
個々のrunを停止する
ベストプラクティス
- 実行中の実験を失うことなく一時的に探索を停止したい場合は、cancel ではなく
--pauseを使用する - 個々の run のステータスを監視して、共通する失敗パターンを特定する
- 満足のいくハイパーパラメータが見つかったら、
--stopを使用して安全に終了させる - run が過剰なリソースを消費している、またはエラーを出している緊急時にのみ
--cancelを使用する