Cuda out of memory が発生する場合は、プロセスベースの実行を使用するようにコードをリファクタリングしてください。コードを Python スクリプトとして書き直し、Python SDK ではなく CLI から sweep エージェントを呼び出します。
-
トレーニング ロジックを Python スクリプト (たとえば
train.py) に追加します。 -
YAML の sweep 設定でそのスクリプトを参照します。
-
CLI で sweep を初期化します。
-
CLI で sweep エージェントを起動します。
sweep_IDは前の手順で返された ID に置き換えてください。
wandb.agent) ではなく CLI ベースのエージェント (wandb agent) を使用すると、各 run がそれぞれ独立したメモリ割り当てを持つ別個のプロセスとして実行されるため、CUDA メモリが run 間で蓄積するのを防げます。
詳細は, Sweeps のトラブルシューティングを参照してください。
Sweeps run の異常終了