Passer au contenu principal
Utilisez le tableau de bord interactif de surveillance de la file d’attente pour voir quand une Launch queue est très sollicitée ou au repos, visualiser les charges de travail en cours d’exécution et repérer les jobs inefficaces. Le tableau de bord de la Launch queue est particulièrement utile pour déterminer si vous utilisez efficacement vos ressources de calcul ou cloud. Pour une analyse plus approfondie, la page propose des liens vers le Workspace W&B de suivi des expériences, ainsi que vers des fournisseurs externes de surveillance de l’infrastructure comme Datadog, NVIDIA Base Command ou les consoles cloud.
Les tableaux de bord de surveillance des files d’attente sont actuellement disponibles uniquement avec l’option de déploiement W&B Multi-tenant Cloud.

Tableau de bord et graphiques

Utilisez l’onglet Monitor pour consulter l’activité d’une file d’attente au cours des sept derniers jours. Utilisez le panneau de gauche pour définir les plages temporelles, les regroupements et les filtres. Le tableau de bord contient plusieurs graphiques qui répondent aux questions courantes sur les performances et l’efficacité. Les sections suivantes décrivent les éléments de l’interface utilisateur des tableaux de bord de file d’attente.

Statut des jobs

Le graphique Statut des jobs montre le nombre de jobs en cours d’exécution, en attente, en file d’attente ou terminés sur chaque intervalle de temps. Utilisez le graphique Statut des jobs pour repérer les périodes d’inactivité dans la file d’attente.
Chronologie du statut des jobs
Par exemple, supposons que vous disposiez d’une ressource fixe (comme DGX BasePod). Si vous observez une file d’attente inactive avec cette ressource fixe, cela peut indiquer qu’il serait possible d’exécuter des jobs Launch préemptibles de priorité inférieure, comme des Sweeps. À l’inverse, supposons que vous utilisiez une ressource cloud et que vous constatiez des pics d’activité périodiques. Ces pics d’activité peuvent indiquer qu’il serait possible de réduire les coûts en réservant des ressources à des moments précis. À droite du graphique se trouve une légende qui indique quelles couleurs correspondent au statut d’un job Launch.
Les éléments Queued peuvent indiquer qu’il serait possible de déplacer des charges de travail vers d’autres files d’attente. Un pic d’échecs peut aider à identifier les utilisateurs susceptibles d’avoir besoin d’aide pour la configuration de leur job Launch.

Temps en file d’attente

Le graphique Temps en file d’attente montre le temps (en secondes) pendant lequel un launch job est resté dans une file d’attente pour une date ou une plage horaire donnée.
Métriques du temps en file d'attente
L’axe des x affiche la période que vous spécifiez, et l’axe des y affiche le temps (en secondes) pendant lequel un launch job est resté dans une Launch queue. Par exemple, supposons que, sur une journée donnée, 10 launch jobs soient en file d’attente. Le graphique Temps en file d’attente affiche 600 secondes si ces 10 launch jobs attendent en moyenne 60 secondes chacun.
Utilisez le graphique Temps en file d’attente pour identifier les utilisateurs affectés par des temps d’attente élevés.
Personnalisez la couleur de chaque job avec le contrôle Grouping dans la barre de gauche. ce qui peut être particulièrement utile pour identifier quels utilisateurs et jobs pâtissent d’une capacité de file d’attente insuffisante.

Exécutions de jobs

Chronologie des exécutions de jobs
Ce graphique montre le début et la fin de chaque job exécuté sur une période donnée, avec des couleurs distinctes pour chaque exécution. Vous pouvez ainsi voir d’un coup d’œil quelles charges de travail la file d’attente traitait à un moment donné. Utilisez l’outil Select en bas à droite du panneau pour sélectionner des jobs et afficher leurs détails dans le tableau ci-dessous.

Utilisation du CPU et du GPU

Utilisez Utilisation du GPU par job, Utilisation du CPU par job, Mémoire GPU par job et Mémoire système par job pour évaluer l’efficacité de vos jobs Launch.
Métriques d'utilisation du GPU
Par exemple, vous pouvez utiliser Mémoire GPU par job pour voir si un run W&B a mis longtemps à se terminer et s’il a utilisé un faible pourcentage de ses cœurs CPU. L’axe des x de chaque graphique indique la durée d’un run W&B (créé par un job Launch) en secondes. Survolez un point de données pour afficher des informations sur un run W&B, comme le run ID, le projet auquel le run appartient, le job Launch qui a créé le run W&B, et plus encore.

Erreurs

Le panneau Errors affiche les erreurs survenues dans une Launch queue donnée. Plus précisément, le panneau Errors affiche l’horodatage de l’erreur, le nom du job Launch d’où elle provient, ainsi que le message d’erreur généré. Par défaut, les erreurs sont triées de la plus récente à la plus ancienne.
Panneau des erreurs
Utilisez le panneau Errors pour identifier et débloquer les utilisateurs. La vue du tableau de bord d’observabilité de la file d’attente est la même pour tous les types de files d’attente, mais, dans bien des cas, il peut être utile d’accéder directement aux vues de supervision propres à un environnement. Pour cela, ajoutez un lien dans la console directement depuis le tableau de bord d’observabilité de la file d’attente. En bas de la page, cliquez sur Manage Links pour ouvrir un panneau. Ajoutez l’URL complète de la page souhaitée. Ajoutez ensuite un libellé. Les liens que vous ajoutez apparaissent dans la section Liens externes.