메인 콘텐츠로 건너뛰기
W&B Launch를 사용하면 SageMaker 플랫폼에서 제공되거나 맞춤형 알고리즘으로 머신 러닝 모델을 트레이닝하기 위해 Amazon SageMaker에 launch job을 제출할 수 있습니다. SageMaker는 컴퓨팅 리소스의 프로비저닝과 해제를 처리하므로, EKS 클러스터가 없는 팀에게 좋은 선택이 될 수 있습니다. Amazon SageMaker에 연결된 W&B Launch 큐로 전송된 launch job은 CreateTrainingJob API를 통해 SageMaker Training Job으로 실행됩니다. CreateTrainingJob API에 전달되는 인수를 제어하려면 launch 큐 설정을 사용하세요. Amazon SageMaker는 도커 이미지를 사용해 트레이닝 작업을 실행합니다. SageMaker가 가져오는 이미지는 Amazon Elastic Container Registry(ECR)에 저장되어 있어야 합니다. 즉, 트레이닝에 사용하는 이미지는 ECR에 저장되어 있어야 합니다.
이 가이드는 SageMaker Training Job을 실행하는 방법을 설명합니다. Amazon SageMaker에서 Inference용 모델에 배포하는 방법은 이 예제 Launch job을 참조하세요.

사전 요구 사항

시작하기 전에 다음 사전 요구 사항을 충족하는지 확인하세요:

Launch 에이전트가 도커 이미지를 빌드할지 결정합니다

W&B Launch 에이전트가 사용자를 대신해 도커 이미지를 빌드하도록 할지 결정합니다. 선택할 수 있는 옵션은 두 가지입니다:
  • Launch 에이전트가 도커 이미지를 빌드하고, 이미지를 Amazon ECR에 푸시한 다음, SageMaker Training 작업을 제출하도록 허용합니다. 이 옵션은 트레이닝 코드를 빠르게 반복 개선하는 ML 엔지니어에게 더 간편한 방법이 될 수 있습니다.
  • Launch 에이전트가 트레이닝 또는 Inference 스크립트가 포함된 기존 도커 이미지를 사용합니다. 이 옵션은 기존 CI 시스템과 잘 맞습니다. 이 옵션을 선택하면 Amazon ECR의 컨테이너 레지스트리에 도커 이미지를 직접 업로드해야 합니다.

AWS 리소스 설정

선호하는 AWS 리전에 다음 AWS 리소스가 구성되어 있는지 확인하세요.
  1. 컨테이너 이미지를 저장할 ECR 저장소
  2. SageMaker 트레이닝 작업의 입력과 출력을 저장할 하나 이상의 S3 버킷
  3. SageMaker가 트레이닝 작업을 실행하고 Amazon ECR 및 Amazon S3와 상호 작용할 수 있도록 허용하는 Amazon SageMaker용 IAM 역할
이 리소스의 ARN을 기록해 두세요. Launch 큐 설정을 정의할 때 ARN이 필요합니다.

Launch 에이전트용 IAM 정책 만들기

  1. AWS의 IAM 화면에서 새 정책을 만듭니다.
  2. JSON 정책 편집기로 전환한 다음, 사용 사례에 따라 아래 정책을 붙여넣습니다. <>로 둘러싸인 값은 사용자 환경에 맞는 값으로 바꾸세요.
  {
    "Version": "2012-10-17",
    "Statement": [
      {
        "Effect": "Allow",
        "Action": [
          "logs:DescribeLogStreams",
          "SageMaker:AddTags",
          "SageMaker:CreateTrainingJob",
          "SageMaker:DescribeTrainingJob"
        ],
        "Resource": "arn:aws:sagemaker:<region>:<account-id>:*"
      },
      {
        "Effect": "Allow",
        "Action": "iam:PassRole",
        "Resource": "arn:aws:iam::<account-id>:role/<RoleArn-from-queue-config>"
      },
    {
        "Effect": "Allow",
        "Action": "kms:CreateGrant",
        "Resource": "<ARN-OF-KMS-KEY>",
        "Condition": {
          "StringEquals": {
            "kms:ViaService": "SageMaker.<region>.amazonaws.com",
            "kms:GrantIsForAWSResource": "true"
          }
        }
      }
    ]
  }
  1. Next를 클릭합니다.
  2. 정책의 이름과 설명을 입력합니다.
  3. Create policy를 클릭합니다.

Launch 에이전트용 IAM 역할 생성

Launch 에이전트가 Amazon SageMaker 트레이닝 작업을 생성하려면 권한이 필요합니다. IAM 역할을 생성하려면 아래 절차를 따르세요.
  1. AWS의 IAM 화면에서 새 역할을 생성합니다.
  2. Trusted Entity에서 AWS Account를 선택합니다(또는 조직의 정책에 맞는 다른 옵션을 선택합니다).
  3. 권한 화면에서 스크롤하여 바로 앞 단계에서 생성한 정책 이름을 선택합니다.
  4. 역할의 이름과 설명을 입력합니다.
  5. Create role을 선택합니다.
  6. 역할의 ARN을 기록해 둡니다. Launch 에이전트를 설정할 때 이 ARN을 지정합니다.
IAM 역할 생성에 대한 자세한 내용은 AWS Identity and Access Management Documentation을 참조하세요.
  • Launch 에이전트가 이미지를 빌드해야 하는 경우, 추가로 필요한 권한은 Advanced agent set up을 참조하세요.
  • SageMaker 큐의 kms:CreateGrant 권한은 연결된 ResourceConfig에 VolumeKmsKeyId가 지정되어 있고, 연결된 역할에 이 작업을 허용하는 정책이 없는 경우에만 필요합니다.

SageMaker용 Launch 큐 설정

다음으로, W&B App에서 SageMaker를 컴퓨팅 리소스로 사용하는 큐를 생성합니다:
  1. Launch App(으)로 이동합니다.
  2. Create Queue 버튼을 클릭합니다.
  3. 큐를 생성할 Entity를 선택합니다.
  4. Name 필드에 큐 이름을 입력합니다.
  5. ResourceSageMaker를 선택합니다.
  6. Configuration 필드에 SageMaker 작업 정보를 입력합니다. 기본적으로 W&B가 YAML 및 JSON CreateTrainingJob 요청 본문을 미리 채워 넣습니다:
    {
      "RoleArn": "<REQUIRED>", 
      "ResourceConfig": {
          "InstanceType": "ml.m4.xlarge",
          "InstanceCount": 1,
          "VolumeSizeInGB": 2
      },
      "OutputDataConfig": {
          "S3OutputPath": "<REQUIRED>"
      },
      "StoppingCondition": {
          "MaxRuntimeInSeconds": 3600
      }
    }
    
최소한 다음 항목은 지정해야 합니다:
  • RoleArn : SageMaker 실행 IAM 역할의 ARN입니다(사전 요구 사항 참조). Launch 에이전트 IAM 역할과 혼동하지 마세요.
  • OutputDataConfig.S3OutputPath : SageMaker 출력이 저장될 위치를 지정하는 Amazon S3 URI입니다.
  • ResourceConfig: 필수 리소스 설정 사양입니다. 리소스 설정 옵션은 여기에 설명되어 있습니다.
  • StoppingCondition: 트레이닝 작업의 중지 조건에 대한 필수 사양입니다. 옵션은 여기에 설명되어 있습니다.
  1. Create Queue 버튼을 클릭합니다.

Launch 에이전트 설정

다음 섹션에서는 에이전트를 배포할 수 있는 위치와, 배포 위치에 따라 에이전트를 설정하는 방법을 설명합니다. Amazon SageMaker 용 Launch 에이전트는 여러 위치에 배포할 수 있습니다. 로컬 머신, EC2 인스턴스 또는 EKS 클러스터에 배포할 수 있습니다. 에이전트를 배포하는 위치에 따라 Launch 에이전트를 적절히 설정하세요.

Launch 에이전트를 어디에서 실행할지 결정하기

프로덕션 워크로드이면서 이미 EKS 클러스터를 보유한 고객의 경우, W&B는 이 Helm 차트를 사용해 EKS 클러스터에 Launch 에이전트를 배포할 것을 권장합니다. 현재 EKS 클러스터가 없는 프로덕션 워크로드의 경우에는 EC2 인스턴스가 좋은 선택입니다. Launch 에이전트 인스턴스는 항상 실행 상태를 유지하지만, 에이전트에 필요한 사양은 비교적 저렴한 t2.micro 크기의 EC2 인스턴스로도 충분합니다. 실험용 또는 개인 사용 사례에서는 로컬 머신에서 Launch 에이전트를 실행하는 것이 빠르게 시작할 수 있는 방법입니다. 사용 사례에 따라, 다음 탭의 안내에 따라 Launch 에이전트를 올바르게 설정하세요:
W&B는 EKS 클러스터에 에이전트를 설치할 때 W&B managed helm chart를 사용할 것을 강력히 권장합니다.

Launch 에이전트 설정

launch-config.yaml이라는 이름의 YAML 설정 파일로 Launch 에이전트를 설정합니다. 기본적으로 W&B는 ~/.config/wandb/launch-config.yaml에서 설정 파일을 찾습니다. -c 플래그를 사용해 Launch 에이전트를 활성화할 때 다른 디렉터리를 선택적으로 지정할 수 있습니다. 다음 YAML 스니펫은 핵심 에이전트 설정 옵션을 지정하는 방법을 보여줍니다:
launch-config.yaml
max_jobs: -1
queues:
  - <queue-name>
environment:
  type: aws
  region: <your-region>
registry:
  type: ecr
  uri: <ecr-repo-arn>
builder: 
  type: docker

이제 wandb launch-agent로 에이전트를 시작하세요

(선택 사항) launch job 도커 이미지를 Amazon ECR에 푸시

이 섹션은 Launch 에이전트가 트레이닝 또는 Inference 로직이 포함된 기존 도커 이미지를 사용하는 경우에만 적용됩니다. Launch 에이전트의 동작 방식에는 두 가지 옵션이 있습니다.
launch job이 포함된 도커 이미지를 Amazon ECR 리포지토리에 업로드하세요. 이미지 기반 작업을 사용하는 경우, 새 launch job을 제출하기 전에 해당 도커 이미지가 ECR 레지스트리에 있어야 합니다.