Consultez les alertes d’infrastructure, comme les pannes de GPU, les violations thermiques, etc., pendant les expériences de machine learning que vous consignez dans W&B. Pendant un run W&B, CoreWeave Mission Control surveille votre infrastructure de calcul.
Cette fonctionnalité est en préversion et n’est disponible que pour l’entraînement sur un cluster CoreWeave. Contactez votre représentant W&B pour obtenir l’accès.
Si une erreur se produit, CoreWeave envoie ces informations à W&B. W&B affiche ensuite les informations d’infrastructure sur les graphiques du run dans le Workspace de votre projet. CoreWeave tente de résoudre automatiquement certains problèmes, et W&B affiche ces informations sur la page du run.