W&B にログした機械学習実験中に、GPU 障害や温度異常などのインフラストラクチャアラートを把握できます。W&B run の実行中、CoreWeave Mission Control がコンピュートインフラストラクチャを監視します。
この機能はプレビュー版であり、CoreWeave クラスター上での学習時にのみ利用できます。アクセスについては担当の W&B までお問い合わせください。
エラーが発生すると、CoreWeave はその情報を W&B に送信します。W&B は、インフラストラクチャ情報をプロジェクトのワークスペース内の run のプロットに反映します。CoreWeave は一部の問題の自動解決を試み、その結果を W&B が run のページ上に表示します。