メインコンテンツへスキップ
インタラクティブなキュー監視ダッシュボードを使用すると、launch queue が高負荷なのかアイドル状態なのかを確認し、実行中のワークロードを可視化して、非効率なジョブを特定できます。launch queue ダッシュボードは、計算ハードウェアやクラウドリソースを効果的に使用できているかどうかを判断する際に特に役立ちます。 より詳細に分析するには、このページから W&B の実験管理 Workspace や、Datadog、NVIDIA Base Command、クラウドコンソールなどの外部インフラストラクチャー監視プロバイダーへのリンクを利用できます。
キュー監視ダッシュボードは現在、W&B Multi-tenant Cloud のデプロイオプションでのみ利用できます。

ダッシュボードとプロット

Monitor タブを使用すると、過去7日間に発生したキューのアクティビティを確認できます。左側のパネルでは、時間範囲、グループ化、フィルターを設定できます。 ダッシュボードには、パフォーマンスと効率に関するよくある疑問に答える複数のプロットが含まれています。以降のセクションでは、キューのダッシュボードのUI要素について説明します。

ジョブステータス

Job status プロットには、各時間間隔における実行中、保留中、キュー内、または完了済みのジョブ数が表示されます。キューがアイドル状態になっている時間帯を特定するには、Job status プロットを使用します。
ジョブステータスのタイムライン
たとえば、固定リソース (DGX BasePod など) を使用しているとします。固定リソースでキューがアイドル状態になっている場合は、sweeps などの優先度が低いプリエンプティブルな Launch ジョブを実行する余地がある可能性があります。 一方、クラウドリソースを使用していて、アクティビティが周期的に集中している場合もあります。このような周期的なアクティビティの集中は、特定の時間帯にリソースを予約することでコストを削減できる可能性を示唆します。 プロットの右側には、どの色がLaunch ジョブのステータスを表すかを示す凡例があります。
Queued の項目は、ワークロードを別のキューに振り分ける余地があることを示している可能性があります。失敗の急増は、Launch ジョブのセットアップで支援が必要なユーザーを特定する手がかりになります。

キュー時間

Queued timeプロットには、指定した日付または時間範囲において、Launch ジョブ がキューに入っていた時間の長さ (秒) が表示されます。
キュー時間のメトリクス
x軸には指定した時間範囲が表示され、y軸には Launch ジョブ が Launch queue に入っていた時間 (秒) が表示されます。たとえば、ある日に 10 件の Launch ジョブ がキューに入っているとします。これら 10 件の Launch ジョブ がそれぞれ平均 60 秒待機した場合、Queue timeプロットには 600 秒と表示されます。
Queued timeプロットを使用すると、キュー時間の長さによる影響を受けているUsersを特定できます。
左側のバーにある Grouping コントロールを使用して、各ジョブの色をカスタマイズします。 これは、キュー容量の不足によるしわ寄せを受けているUsersやジョブを特定する際に、特に役立ちます。

ジョブの実行状況

ジョブ実行のタイムライン
このプロットには、一定期間内に実行されたすべてのジョブの開始時刻と終了時刻が表示され、各 run は異なる色で示されます。これにより、特定の時点でキューがどのワークロードを処理していたかを一目で把握できます。 下の表に詳細を表示するには、パネル右下の Select tool を使用してジョブの範囲をドラッグして選択します。

CPU と GPU の使用状況

ジョブごとの GPU 使用率ジョブごとの CPU 使用率ジョブごとの GPU メモリジョブごとのシステムメモリを使用して、Launch ジョブの効率を確認できます。
GPU 使用状況メトリクス
たとえば、ジョブごとの GPU メモリを使うと、W&B run の完了に時間がかかっていたかどうかや、CPU コアの使用率が低かったかどうかを確認できます。 各プロットの x 軸には、W&B run (Launch ジョブによって作成された) の実行時間が秒単位で表示されます。データポイントにマウスオーバーすると、run ID、その run が属するプロジェクト、その W&B run を作成した Launch ジョブなど、W&B run に関する情報を確認できます。

Errors

Errors パネルには、指定した launch queue で発生したエラーが表示されます。具体的には、エラーの発生時刻、そのエラーの発生元である Launch ジョブ の名、作成されたエラーメッセージが表示されます。デフォルトでは、エラーは新しいものから古いものの順に並びます。
エラーログパネル
Errors パネルを使用して、影響を受けているユーザーを特定し、問題を解消できます。 キュー可観測性ダッシュボードのビューは、すべてのキュータイプで共通していますが、多くの場合、環境固有のモニターに直接移動できると便利です。そのためには、コンソールでキュー可観測性ダッシュボードから直接リンクを追加します。 ページの下部で、Manage Links をクリックしてパネルを開きます。追加したいページの完全な URL を入力します。次に、ラベルを追加します。追加したリンクは、外部リンク セクションに表示されます。