resume dans wandb.init(). Lorsque vous initialisez un run, W&B vérifie si l’ID du run existe déjà et applique le comportement défini par la valeur de resume.
Le tableau suivant présente le comportement de W&B en fonction de l’argument transmis au paramètre resume et de l’existence ou non de l’ID du run.
| Argument | Description | L’ID du run existe | L’ID du run n’existe pas | Cas d’utilisation |
|---|---|---|---|---|
"must" | W&B doit reprendre le run spécifié par l’ID du run. | W&B reprend le run avec le même ID du run. Reprend à partir de la dernière étape. | W&B génère une erreur. | Reprendre un run qui doit utiliser le même ID du run. |
"allow" | Autorise W&B à reprendre le run si l’ID du run existe. | W&B reprend le run avec le même ID du run. Reprend à partir de la dernière étape. | W&B initialise un nouveau run avec l’ID du run spécifié. | Reprendre un run sans écraser un run existant. |
"never" | N’autorise jamais W&B à reprendre un run spécifié par l’ID du run. | Génère une erreur si un run avec l’ID spécifié existe déjà. | W&B initialise un nouveau run avec l’ID du run spécifié. | |
"auto" | Autorise W&B à tenter automatiquement de reprendre le run si l’ID du run existe. Redémarrez le run depuis le même répertoire que le processus ayant échoué. | W&B reprend le run avec le même ID du run. | W&B initialise un nouveau run avec l’ID du run spécifié. | Permettre la reprise automatique des runs. |
Quand utiliser
auto plutôt que allowW&B recommande d’utiliser resume="allow" et de spécifier l’ID exact du run que vous souhaitez reprendre.L’option resume="auto" ne vous oblige pas à spécifier d’ID du run, mais elle peut entraîner un comportement inattendu si plusieurs runs échouent dans le même répertoire ou si la structure des répertoires change. Vous devez également vous assurer de redémarrer le run depuis le même répertoire que le processus ayant échoué lorsque vous utilisez resume="auto".<> par les vôtres.
Reprendre un run en utilisant obligatoirement le même ID du run
- Définissez le paramètre
resumesur"must"(resume="must") - Fournissez l’ID du run arrêté ou planté
Reprendre un run sans écraser le run existant
resume sur "allow" (resume="allow") lorsque vous initialisez un run avec W&B. Fournissez l’ID du run arrêté ou planté. L’extrait de code suivant montre comment procéder avec le SDK Python de W&B :
Activer la reprise automatique des runs
- W&B Python SDK
- Script shell
Passez
auto comme argument du paramètre resume lorsque vous initialisez un run. Veillez à redémarrer le run depuis le même répertoire que le processus ayant échoué.Copiez-collez l’extrait de code suivant. Remplacez les valeurs entre <> par les vôtres :train.py dans un répertoire nommé Users/AwesomeEmployee/Desktop/ImageClassify/training/. Dans train.py, le script crée un run avec reprise automatique activée. Supposons ensuite que le script d’entraînement s’arrête. Pour reprendre ce run, vous devez redémarrer votre script train.py dans Users/AwesomeEmployee/Desktop/ImageClassify/training/.
Si vous ne pouvez pas utiliser un système de fichiers partagé, spécifiez la variable d’environnement
WANDB_RUN_ID ou transmettez l’ID du run avec le W&B Python SDK. Voir la section Custom run IDs de la page « What are runs? » pour plus d’informations sur les IDs du run.Reprendre les runs Sweeps préemptibles
wandb agent, qui lance votre programme d’entraînement comme sous-processus. Il ne s’applique pas entièrement lorsque vous utilisez uniquement l’API Python wandb.agent(), car dans ce cas votre fonction d’entraînement s’exécute dans un thread plutôt que dans un processus distinct, et la réception ainsi que la propagation des signaux du système d’exploitation ne correspondent donc pas au modèle de l’agent CLI.
Modèle recommandé : enregistrez un gestionnaire de signal pour le signal de préemption utilisé par votre ordonnanceur ou votre plateforme (par exemple SIGUSR1 ou SIGTERM). Dans ce gestionnaire, appelez mark_preempting() lorsqu’un run est actif, effectuez tout nettoyage nécessaire (par exemple enregistrer un checkpoint), puis quittez avec un code non nul (une convention courante consiste à utiliser 128 + signum pour une terminaison par signal). N’appelez pas mark_preempting() systématiquement juste après wandb.init(). Sinon, chaque échec, y compris les bugs dans le code, peut être marqué comme une préemption et le run peut être remis en file d’attente de façon répétée.
Pour des exemples exécutables, l’option --forward-signals de l’agent CLI, ainsi qu’un tableau de référence complet pour les différents usages de mark_preempting(), voir Gestion des signaux et runs de sweep.
Lorsque vous suivez ce modèle, W&B enregistre l’état du run à peu près comme suit :
| Scénario | État du run |
|---|---|
| Le run se termine normalement avec le code de sortie 0 | FINISHED |
| Le run échoue avec un code de sortie non nul | FAILED |
Le run reçoit un signal non géré (par exemple SIGKILL) | CRASHED après environ cinq minutes |
Le run reçoit un signal de préemption géré (par exemple SIGTERM ou SIGUSR1), le gestionnaire appelle mark_preempting(), et le processus se termine avec un code non nul | PREEMPTED ; le run est mis en file d’attente pour la prochaine requête d’agent |