- Blocage au début de l’entraînement : le multiprocessing de W&B peut interférer avec celui des frameworks d’entraînement distribué.
- Blocage à la fin de l’entraînement : le processus W&B ne sait pas à quel moment il doit s’arrêter.
Corriger le blocage au démarrage
0.13.0 du SDK W&B. Si vous utilisez une version antérieure, mettez votre SDK à niveau :
0.12.5 à 0.12.x du SDK W&B, activez explicitement W&B Service :
0.12.4 et les versions antérieures, définissez la variable d’environnement WANDB_START_METHOD :
Corriger le blocage en fin d’exécution
wandb.finish() à la fin de votre script d’entraînement pour indiquer à W&B que l’exécution est terminée :
Experiments Run Crashes