대화형 Queue monitoring dashboard를 사용하면 Launch 큐의 사용량이 많은지 유휴 상태인지 확인하고, 실행 중인 워크로드를 시각화하며, 비효율적인 작업을 찾아낼 수 있습니다. Launch 큐 대시보드는 컴퓨팅 하드웨어나 클라우드 리소스를 효과적으로 활용하고 있는지 판단할 때 특히 유용합니다.
더 심층적인 분석을 위해 이 페이지는 W&B 실험 추적 Workspace와 Datadog, NVIDIA Base Command, 클라우드 콘솔 같은 외부 인프라 모니터링 제공업체로 연결되는 링크를 제공합니다.
Queue monitoring dashboard는 현재 W&B Multi-tenant Cloud 배포 옵션에서만 사용할 수 있습니다.
지난 7일 동안 발생한 큐 활동을 보려면 Monitor 탭을 사용하세요. 왼쪽 패널에서 시간 범위, 그룹화, 필터를 조정할 수 있습니다.
대시보드에는 성능과 효율성에 관한 일반적인 질문에 답하는 여러 플롯이 포함되어 있습니다. 다음 섹션에서는 큐 대시보드의 UI 요소를 설명합니다.
Job status 플롯은 각 시간 간격에 실행 중, 보류 중, 큐에 있거나 완료된 작업 수를 보여줍니다. 큐가 유휴 상태인 기간을 파악하려면 Job status 플롯을 사용하세요.
예를 들어, DGX BasePod와 같은 고정 리소스가 있다고 가정해 보겠습니다. 고정 리소스를 사용하는데도 큐가 유휴 상태라면, Sweeps와 같은 우선순위가 낮은 선점형 Launch 작업을 실행할 기회가 있음을 시사할 수 있습니다.
반면, 클라우드 리소스를 사용하고 있고 활동이 주기적으로 급증한다면, 특정 시간대에 리소스를 예약해 비용을 절감할 기회가 있음을 시사할 수 있습니다.
플롯 오른쪽에는 어떤 색상이 Launch 작업의 상태를 나타내는지 보여주는 키가 있습니다.
Queued 항목은 워크로드를 다른 큐로 옮길 기회가 있음을 나타낼 수 있습니다. 실패가 급증하면 Launch 작업 설정에 도움이 필요한 사용자를 파악할 수 있습니다.
Queued time 플롯은 지정한 날짜 또는 시간 범위 동안 Launch 작업이 큐에 있었던 시간(초)을 보여줍니다.
x축은 지정한 시간 범위를 보여주고, y축은 Launch 작업이 launch queue에서 대기한 시간(초)을 보여줍니다. 예를 들어, 특정 날짜에 큐에 들어간 Launch 작업이 10개 있다고 가정해 보겠습니다. 이 10개의 Launch 작업이 각각 평균 60초씩 대기했다면 Queue time 플롯에는 600초가 표시됩니다.
Queued time 플롯을 사용하면 긴 대기 시간의 영향을 받는 Users를 파악할 수 있습니다.
왼쪽 바의 Grouping 컨트롤을 사용해 각 작업의 색상을 사용자 지정하세요.
이는 특히 큐 용량이 부족해 영향을 받는 Users와 작업을 파악하는 데 유용합니다.
이 플롯은 일정 기간 동안 실행된 모든 작업의 시작과 종료 시점을 보여주며, 각 run은 서로 다른 색상으로 표시됩니다. 이를 통해 특정 시점에 큐가 어떤 워크로드를 처리하고 있었는지 한눈에 확인할 수 있습니다.
패널 오른쪽 아래의 Select 도구를 사용해 작업 위를 드래그하면 아래 테이블에 세부 정보가 표시됩니다.
작업별 GPU 사용량, 작업별 CPU 사용량, 작업별 GPU 메모리, 작업별 시스템 메모리를 사용해 Launch 작업의 효율성을 확인할 수 있습니다.
예를 들어, 작업별 GPU 메모리를 사용하면 W&B run이 완료되는 데 오랜 시간이 걸렸는지, 그리고 CPU 코어 사용률이 낮았는지 확인할 수 있습니다.
각 플롯의 x축에는 Launch 작업이 생성한 W&B run의 실행 시간이 초 단위로 표시됩니다. 데이터 포인트 위에 마우스를 올리면 run ID, 해당 run이 속한 프로젝트, W&B run을 생성한 Launch 작업 등 W&B run에 대한 정보를 확인할 수 있습니다.
Errors 패널은 특정 Launch 큐에서 발생한 오류를 보여줍니다. 보다 구체적으로, Errors 패널에는 오류 발생 시점의 Timestamp, 오류가 발생한 Launch 작업의 이름, 그리고 생성된 오류 메시지가 표시됩니다. 기본적으로 오류는 최신순으로 정렬됩니다.
영향을 받는 사용자를 파악하고 차단을 해제하는 데 Errors 패널을 사용하세요.
큐 관측성 대시보드의 뷰는 모든 큐 유형에서 일관되지만, 많은 경우 환경별 모니터로 바로 이동할 수 있으면 유용합니다. 이렇게 하려면 콘솔에서 큐 관측성 대시보드에 직접 링크를 추가하세요.
페이지 하단에서 Manage Links를 클릭해 패널을 엽니다. 원하는 페이지의 전체 URL을 추가합니다. 다음으로 레이블을 추가합니다. 추가한 링크는 External Links 섹션에 표시됩니다.