이 가이드는 에어갭(air-gapped), 완전 분리, 또는 네트워크가 제한된 고객 관리 환경에서 W&B Platform을 배포하기 위한 단계별 지침을 제공합니다. 에어갭 배포는 다음과 같은 환경에서 일반적입니다:
- 보안이 중요한 정부 기관
- 엄격한 네트워크 분리가 필요한 금융 기관
- 규정 준수 요구 사항이 있는 의료 기관
- 산업 제어 시스템(ICS) 환경
- 기밀 네트워크를 사용하는 연구 시설
내부 컨테이너 레지스트리와 Helm 리포지토리를 사용하여 필요한 W&B 이미지와 차트를 호스팅하십시오. Kubernetes 클러스터에 적절한 액세스 권한이 있는 셸 콘솔에서 다음 명령을 실행하십시오.
이 명령들은 Kubernetes 애플리케이션을 배포하는 데 사용하는 어떤 CI/CD 도구와도 연동되도록 조정하여 사용할 수 있습니다.
인터넷 연결이 가능한 표준 온프레미스 Kubernetes 배포의 경우, Kubernetes Operator로 W&B 배포하기를 참조하십시오.
시작하기 전에 에어갭 환경이 다음 요건을 충족하는지 확인하세요.
| 소프트웨어 | 최소 버전 |
|---|
| Kubernetes | v1.32 이상 (지원되는 Kubernetes 버전) |
| Helm | v3.x |
| MySQL | v8.0.x 필수이며, 최소 v8.0.32 이상이 필요합니다. v8.0.44 이상을 권장합니다. Aurora MySQL 3.x 릴리스는 v3.05.2 이상이어야 합니다. |
| Redis | v7.x |
W&B는 클라이언트와 서버 간의 보안 통신을 위해 유효한 서명된 SSL/TLS 인증서가 필요합니다. SSL/TLS 종단은 반드시 인그레스/로드 밸런서에서 이루어져야 합니다. W&B Server 애플리케이션은 SSL 또는 TLS 연결을 종단하지 않습니다.
중요: W&B는 자체 서명(self-signed) 인증서와 사용자 정의 CA를 지원하지 않습니다. 자체 서명 인증서를 사용하면 사용자에게 여러 문제가 발생할 수 있으며, 이는 지원 대상이 아닙니다.
가능하다면 Let’s Encrypt와 같은 서비스를 사용하여 로드 밸런서에 신뢰할 수 있는 인증서를 제공하는 것이 좋습니다. Caddy 및 Cloudflare와 같은 서비스는 SSL을 대신 관리해 줍니다.
보안 정책상 신뢰할 수 있는 네트워크 내에서도 SSL 통신이 필요하다면, Istio 및 sidecar 컨테이너와 같은 도구 사용을 고려하십시오.
CPU 아키텍처: W&B는 Intel (x86) CPU 아키텍처에서만 실행됩니다. ARM 아키텍처는 지원되지 않습니다.
사이징: Kubernetes 노드와 MySQL의 CPU, 메모리, 디스크 용량 산정(사이징)에 대한 권장 사항은 레퍼런스 아키텍처의 사이징 섹션을 참조하세요. 요구 사항은 Models, Weave 또는 둘 다를 실행하는지 여부에 따라 달라집니다.
W&B는 외부 MySQL 데이터베이스를 필요로 합니다.
프로덕션 환경에서는 관리형 데이터베이스 서비스를 사용할 것을 W&B가 강력히 권장합니다:
관리형 데이터베이스 서비스는 자동 백업, 모니터링, 고가용성, 패치 적용을 제공하며 운영 부담을 줄여 줍니다.
사이징 권장 사항과 설정 파라미터를 포함한 전체 MySQL 요구 사항은 reference architecture를 참고하세요. 데이터베이스 생성 SQL은 bare-metal guide를 참고하세요. 배포 환경의 데이터베이스 설정 관련 문의는 support 또는 담당 AISE에게 연락하세요.
셀프 매니지드 인스턴스의 MySQL 설정 매개변수는 레퍼런스 아키텍처의 MySQL 설정 섹션을 참고하세요.
W&B는 작업 큐 및 데이터 캐싱을 위해 W&B 구성 요소에서 사용하는 단일 노드 Redis 7.x 배포본에 의존합니다. PoC(개념 증명)의 테스트와 개발을 편리하게 수행할 수 있도록 W&B Self-Managed에는 프로덕션 환경에는 적합하지 않은 로컬 Redis 배포본이 포함되어 있습니다.
프로덕션 배포의 경우 W&B는 다음 환경의 Redis 인스턴스에 연결할 수 있습니다.
W&B는 사전 서명된 URL 및 CORS를 지원하는 오브젝트 스토리지를 필요로 합니다.
권장 스토리지 제공업체:
MinIO Open Source는 현재 유지 관리 모드이며, 활성 개발이 진행되지 않고 사전 컴파일된 바이너리가 제공되지 않습니다. 프로덕션 배포의 경우, W&B는 관리형 오브젝트 스토리지 서비스 또는 MinIO Enterprise (AIStor)와 같은 엔터프라이즈 S3 호환 솔루션 사용을 권장합니다.
IAM 정책, CORS 설정 및 액세스 설정 등을 포함한 버킷 프로비저닝에 대한 자세한 지침은 Bring Your Own Bucket (BYOB) 가이드를 참조하세요.
전체 요구 사항은 reference architecture의 오브젝트 스토리지 섹션을 참조하세요.
오브젝트 스토리지 프로비저닝에 대한 자세한 지침은 Bring Your Own Bucket (BYOB) 가이드를 참조하세요. 에어갭 환경에서는 일반적으로 MinIO Enterprise, NetApp StorageGRID, Dell ECS와 같은 온프레미스 S3 호환 스토리지를 사용합니다.
위의 일반 요구 사항 외에 에어갭 배포에는 다음이 필요합니다:
- 내부 컨테이너 레지스트리: 필요한 모든 W&B 이미지를 포함한 프라이빗 컨테이너 레지스트리(Harbor, JFrog Artifactory, Nexus 등)에 대한 접근
- 내부 Helm 리포지토리: W&B Helm 차트를 포함한 프라이빗 Helm 차트 리포지토리에 대한 접근
- 이미지 전송 기능: 인터넷이 연결된 시스템에서 에어갭 레지스트리로 컨테이너 이미지를 전송할 수 있는 수단
- 라이선스 파일: 유효한 W&B Enterprise 라이선스. 라이선스를 발급받으려면(예: 인터넷이 연결된 머신에서) Requirements 페이지의 License 섹션을 참고하거나 W&B 계정 팀에 문의하세요.
네트워킹 및 로드 밸런서 설정을 포함한 전체 인프라 요구 사항은 reference architecture를 참고하세요.
에어갭 배포를 성공적으로 수행하려면 필요한 모든 컨테이너 이미지가 에어갭 컨테이너 레지스트리에 미리 준비되어 있어야 합니다.
W&B Operator의 요구 사항을 파악하고, 최신 이미지를 사용하도록 컨테이너 레지스트리를 정기적으로 유지 관리하는 책임은 사용자에게 있습니다. 필요한 컨테이너 이미지와 버전의 최신 목록은 Helm 차트를 참조하거나, W&B Support 또는 담당 W&B 지원 엔지니어에게 문의하십시오.
다음 핵심 컨테이너 이미지가 필요합니다.
다음 서드파티 종속 이미지가 필요합니다.
Helm 차트에서 필요한 이미지와 해당 버전의 전체 목록을 추출하려면 다음 단계를 따르세요.
-
인터넷에 연결된 시스템에서 W&B Helm charts repository에서 W&B Helm 차트를 다운로드하세요.
# helm-charts 리포지토리 클론
git clone https://github.com/wandb/helm-charts.git
cd helm-charts
-
values.yaml 파일을 확인해 모든 컨테이너 이미지와 해당 버전을 식별하세요.
# operator 차트에서 이미지 참조 추출
helm show values charts/operator | grep -E "repository:|tag:" | grep -v "^#"
# platform 차트에서 이미지 참조 추출
helm show values charts/operator-wandb | grep -E "repository:|tag:" | grep -v "^#"
또는, 다음 명령을 사용해 버전 태그 없이 리포지토리 이름만 추출할 수 있습니다.
helm show values charts/operator-wandb \
| awk -F': *' '/^[[:space:]]*repository:/{print $2}' \
| grep -v "^#" \
| sort -u
리포지토리 목록은 다음과 비슷한 형태입니다.
wandb/controller
wandb/local
wandb/console
wandb/megabinary
wandb/weave-python
wandb/weave-trace
otel/opentelemetry-collector-contrib
prometheus/prometheus
prometheus-operator/prometheus-config-reloader
bitnamilegacy/redis
각 이미지에 대한 구체적인 버전 태그를 확인하려면, 위의 첫 번째 명령(grep -E "repository:|tag:")을 사용하세요. 이 명령은 리포지토리 이름과 해당 버전 태그를 모두 표시합니다.
-
인터넷에 연결된 시스템에서 필요한 모든 이미지를 pull해서 저장합니다.
아래 예시의 버전 번호를 위의 2단계에서 Helm 차트를 확인해 얻은 실제 버전으로 교체하세요. 여기 표시된 버전은 예시이며 시간이 지나면 오래될 수 있습니다.
셸 변수를 사용해 버전을 일관되게 관리합니다:
# 버전 변수 설정 (Helm 차트 버전에 맞게 업데이트)
CONTROLLER_VERSION="1.13.3"
APP_VERSION="0.59.2"
CONSOLE_VERSION="2.12.2"
# 이미지 pull
docker pull wandb/controller:${CONTROLLER_VERSION}
docker pull wandb/local:${APP_VERSION}
docker pull wandb/console:${CONSOLE_VERSION}
docker pull wandb/megabinary:${APP_VERSION}
# ... 필요한 다른 모든 이미지를 해당 버전으로 pull
# 이미지를 .tar 파일로 저장
docker save wandb/controller:${CONTROLLER_VERSION} -o wandb-controller-${CONTROLLER_VERSION}.tar
docker save wandb/local:${APP_VERSION} -o wandb-local-${APP_VERSION}.tar
docker save wandb/console:${CONSOLE_VERSION} -o wandb-console-${CONSOLE_VERSION}.tar
docker save wandb/megabinary:${APP_VERSION} -o wandb-megabinary-${APP_VERSION}.tar
# ... 나머지 모든 이미지 저장
-
승인된 방법(USB 드라이브, 보안 파일 전송 등)을 사용해
.tar 파일을 에어갭 환경으로 전송합니다.
-
에어갭 환경에서 이미지를 로드하고 내부 레지스트리에 push합니다:
# 위에서 사용한 것과 동일한 버전 변수 설정
CONTROLLER_VERSION="1.13.3"
APP_VERSION="0.59.2"
CONSOLE_VERSION="2.12.2"
INTERNAL_REGISTRY="registry.yourdomain.com"
# 이미지 로드
docker load -i wandb-controller-${CONTROLLER_VERSION}.tar
docker load -i wandb-local-${APP_VERSION}.tar
docker load -i wandb-console-${CONSOLE_VERSION}.tar
docker load -i wandb-megabinary-${APP_VERSION}.tar
# ... 나머지 모든 이미지 로드
# 내부 레지스트리용 태그 지정
docker tag wandb/controller:${CONTROLLER_VERSION} ${INTERNAL_REGISTRY}/wandb/controller:${CONTROLLER_VERSION}
docker tag wandb/local:${APP_VERSION} ${INTERNAL_REGISTRY}/wandb/local:${APP_VERSION}
docker tag wandb/console:${CONSOLE_VERSION} ${INTERNAL_REGISTRY}/wandb/console:${CONSOLE_VERSION}
docker tag wandb/megabinary:${APP_VERSION} ${INTERNAL_REGISTRY}/wandb/megabinary:${APP_VERSION}
# ... 나머지 모든 이미지 태그 지정
# 내부 레지스트리에 push
docker push ${INTERNAL_REGISTRY}/wandb/controller:${CONTROLLER_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/local:${APP_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/console:${CONSOLE_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/megabinary:${APP_VERSION}
# ... 나머지 모든 이미지를 push
컨테이너 이미지와 함께, 다음 Helm 차트들이 내부 Helm 리포지토리에서 사용 가능한지 확인합니다:
-
인터넷에 연결된 시스템에서 차트를 다운로드합니다:
# W&B Helm 리포지토리 추가
helm repo add wandb https://wandb.github.io/helm-charts
helm repo update
# 차트 다운로드
helm pull wandb/operator --version 1.13.3
helm pull wandb/operator-wandb --version 0.18.0
-
.tgz 차트 파일을 에어갭 환경으로 전송한 뒤, 리포지토리 운영 절차에 따라 내부 Helm 리포지토리에 업로드합니다.
operator 차트는 W&B Kubernetes Operator(Controller Manager)를 배포합니다. operator-wandb 차트는 커스텀 리소스(CR)에 설정된 values를 사용해 W&B Platform을 배포합니다.
-
에어갭된 환경에서 Helm이 내부 리포지토리를 사용하도록 다음과 같이 설정합니다:
helm repo add local-repo https://charts.yourdomain.com
helm repo update
-
차트를 사용할 수 있는지 확인합니다:
helm search repo local-repo/operator
helm search repo local-repo/operator-wandb
망 분리(air-gapped) 환경에서 W&B 배포
4단계: Kubernetes Operator 설치
W&B Kubernetes Operator (controller manager)는 W&B 플랫폼 컴포넌트를 관리합니다. 에어갭 환경에서 설치하려면 내부 컨테이너 레지스트리를 사용하도록 설정해야 합니다.
-
다음 내용을 포함하는
values.yaml 파일을 생성합니다:
image:
repository: registry.yourdomain.com/wandb/controller
tag: 1.13.3
airgapped: true
repository와 tag를 1단계에서 내부 레지스트리로 가져온 실제 버전으로 바꾸십시오. 여기 표시된 버전(1.13.3)은 예시이며, 시간이 지나면 최신이 아니게 됩니다.
-
Operator와 Custom Resource Definition (CRD)를 설치합니다:
helm upgrade --install operator local-repo/operator \
--namespace wandb \
--create-namespace \
--values values.yaml
-
Operator가 실행 중인지 확인합니다:
kubectl get pods -n wandb
Running 상태인 operator pod가 보여야 합니다.
지원되는 값에 대한 전체 내용은 Kubernetes operator GitHub repository values 파일을 참조하십시오.
W&B Custom Resource를 설정하기 전에 먼저 외부 MySQL 데이터베이스를 설정하십시오. 프로덕션 배포의 경우 W&B는 가능한 경우 관리형 데이터베이스 서비스를 사용하는 것을 강력히 권장합니다. 그러나 자체적으로 MySQL 인스턴스를 운영하는 경우 다음과 같이 데이터베이스와 사용자를 생성하십시오:
다음 SQL 명령으로 데이터베이스와 사용자를 생성하세요. SOME_PASSWORD를 선택한 안전한 비밀번호로 바꾸세요:
CREATE USER 'wandb_local'@'%' IDENTIFIED BY 'SOME_PASSWORD';
CREATE DATABASE wandb_local CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
GRANT ALL ON wandb_local.* TO 'wandb_local'@'%' WITH GRANT OPTION;
MySQL 설정 파라미터에 대해서는 참조 아키텍처의 MySQL 설정 섹션을 참조하십시오.
W&B Kubernetes Operator를 설치한 후, Custom Resource(CR)를 설정하여 내부 Helm 리포지토리와 컨테이너 레지스트리를 가리키도록 지정합니다.
이 설정을 통해 Kubernetes Operator가 W&B 플랫폼의 필수 구성 요소를 배포할 때 내부 레지스트리와 리포지토리를 사용하도록 보장합니다.
아래 예제 설정의 이미지 버전 태그는 시간이 지나면 최신 상태가 아닐 수 있습니다. 1단계에서 내부 레지스트리에 업로드한 실제 버전으로 모든 tag: 값을 교체하십시오.
다음 내용을 포함하는 wandb.yaml 파일을 만드십시오:
apiVersion: apps.wandb.com/v1
kind: WeightsAndBiases
metadata:
labels:
app.kubernetes.io/instance: wandb
app.kubernetes.io/name: weightsandbiases
name: wandb
namespace: wandb
spec:
chart:
url: https://charts.yourdomain.com
name: operator-wandb
version: 0.18.0
values:
global:
host: https://wandb.yourdomain.com
license: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
bucket:
accessKey: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
secretKey: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
name: s3.yourdomain.com:9000
path: wandb
provider: s3
region: us-east-1
mysql:
database: wandb
host: mysql.yourdomain.com
password: <your-mysql-password>
port: 3306
user: wandb
redis:
host: redis.yourdomain.com
port: 6379
password: <your-redis-password>
api:
enabled: true
glue:
enabled: true
executor:
enabled: true
extraEnv:
ENABLE_REGISTRY_UI: 'true'
# 모든 컴포넌트 이미지가 내부 레지스트리를 사용하도록 구성
app:
image:
repository: registry.yourdomain.com/wandb/local
tag: 0.59.2
console:
image:
repository: registry.yourdomain.com/wandb/console
tag: 2.12.2
api:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
executor:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
glue:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
parquet:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
weave:
image:
repository: registry.yourdomain.com/wandb/weave-python
tag: 0.59.2
otel:
image:
repository: registry.yourdomain.com/otel/opentelemetry-collector-contrib
tag: 0.97.0
prometheus:
server:
image:
repository: registry.yourdomain.com/prometheus/prometheus
tag: v2.47.0
configmapReload:
prometheus:
image:
repository: registry.yourdomain.com/prometheus-operator/prometheus-config-reloader
tag: v0.67.0
ingress:
annotations:
nginx.ingress.kubernetes.io/proxy-body-size: 0
class: nginx
모든 플레이스홀더 값(호스트 이름, 비밀번호, 태그 등)을 실제 설정값으로 바꾸십시오. 위의 예시는 가장 일반적으로 사용되는 컴포넌트를 보여 줍니다.
배포 요구사항에 따라 다음과 같은 추가 컴포넌트용 이미지 리포지토리를 설정해야 할 수도 있습니다:
settingsMigrationJob
weave-trace
filestream
flat-runs-table
설정 가능한 컴포넌트의 전체 목록은 W&B Helm 리포지토리 values 파일을 참고하십시오.
-
플랫폼을 배포하기 위해 W&B Custom Resource를 적용합니다:
kubectl apply -f wandb.yaml
-
배포 진행 상황을 모니터링합니다:
# 생성 중인 파드를 실시간으로 확인합니다
kubectl get pods -n wandb --watch
# 배포 상태를 확인합니다
kubectl get weightsandbiases -n wandb
# 오퍼레이터 로그를 확인합니다
kubectl logs -n wandb deployment/wandb-operator-controller-manager
오퍼레이터가 필요한 모든 컴포넌트를 생성하는 데 시간이 걸릴 수 있으므로, 배포가 완료되기까지 몇 분 정도 소요될 수 있습니다.
W&B는 에어갭 환경의 OpenShift Kubernetes 클러스터에서의 배포를 완벽하게 지원합니다. OpenShift 배포는 OpenShift의 더 엄격한 보안 정책으로 인해 추가적인 보안 컨텍스트 설정이 필요합니다.
OpenShift는 파드 권한을 제어하기 위해 Security Context Constraints(SCC)를 사용합니다. 기본적으로 OpenShift에서는 파드에 restricted SCC를 할당하며, 이로 인해 컨테이너를 root 사용자로 실행할 수 없고 특정 사용자 ID를 사용해야 합니다.
옵션 1: restricted SCC 사용 (권장)
Custom Resource에서 적절한 보안 컨텍스트를 설정하여 W&B 컴포넌트가 restricted SCC에서 실행되도록 구성합니다:
spec:
values:
# 모든 파드에 대한 보안 컨텍스트 구성
app:
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
console:
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
# 다른 컴포넌트에 대해 반복: api, executor, glue, parquet, weave
옵션 2: 사용자 지정 SCC 생성(필요한 경우)
배포에 restricted SCC에서 제공하지 않는 기능이 필요한 경우, 사용자 지정 SCC를 생성합니다:
apiVersion: security.openshift.io/v1
kind: SecurityContextConstraints
metadata:
name: wandb-scc
allowHostDirVolumePlugin: false
allowHostIPC: false
allowHostNetwork: false
allowHostPID: false
allowHostPorts: false
allowPrivilegeEscalation: false
allowPrivilegedContainer: false
allowedCapabilities: []
defaultAddCapabilities: []
fsGroup:
type: MustRunAs
ranges:
- min: 1000
max: 65535
readOnlyRootFilesystem: false
requiredDropCapabilities:
- ALL
runAsUser:
type: MustRunAsRange
uidRangeMin: 1000
uidRangeMax: 65535
seLinuxContext:
type: MustRunAs
supplementalGroups:
type: RunAsAny
volumes:
- configMap
- downwardAPI
- emptyDir
- persistentVolumeClaim
- projected
- secret
-
SCC를 적용합니다:
oc apply -f wandb-scc.yaml
-
SCC를 W&B 서비스 계정에 바인딩합니다:
oc adm policy add-scc-to-user wandb-scc -z wandb-app -n wandb
oc adm policy add-scc-to-user wandb-scc -z wandb-console -n wandb
OpenShift에서는 표준 Kubernetes Ingress 대신 Routes를 사용합니다. W&B에서 OpenShift Routes를 사용하도록 구성합니다:
spec:
values:
ingress:
enabled: false
route:
enabled: true
host: wandb.apps.openshift.yourdomain.com
tls:
enabled: true
termination: edge
insecureEdgeTerminationPolicy: Redirect
OpenShift 클러스터에서 인증이 필요한 내부 이미지 레지스트리를 사용하는 경우에는:
-
이미지 pull 시크릿을 생성합니다:
kubectl create secret docker-registry wandb-registry-secret \
--docker-server=registry.yourdomain.com \
--docker-username=<username> \
--docker-password=<password> \
--namespace=wandb
-
Custom Resource에서 해당 시크릿을 참조합니다:
spec:
values:
imagePullSecrets:
- name: wandb-registry-secret
다음은 OpenShift 에어갭 배포를 위한 전체 CR 예제입니다:
이 예제에 있는 모든 tag: 값은 1단계에서 내부 레지스트리로 전송한 실제 버전으로 교체하십시오. 여기에 표시된 버전은 단순한 예시이며 시간이 지나면 최신이 아닐 수 있습니다.
apiVersion: apps.wandb.com/v1
kind: WeightsAndBiases
metadata:
name: wandb
namespace: wandb
spec:
chart:
url: https://charts.yourdomain.com
name: operator-wandb
version: 0.18.0
values:
global:
host: https://wandb.apps.openshift.yourdomain.com
license: <your-license>
bucket:
accessKey: <your-access-key>
secretKey: <your-secret-key>
name: s3.yourdomain.com:9000
path: wandb
provider: s3
region: us-east-1
mysql:
database: wandb
host: mysql.yourdomain.com
password: <your-mysql-password>
port: 3306
user: wandb
redis:
host: redis.yourdomain.com
port: 6379
password: <your-redis-password>
# OpenShift 전용: Ingress 대신 Routes 사용
ingress:
enabled: false
route:
enabled: true
host: wandb.apps.openshift.yourdomain.com
tls:
enabled: true
termination: edge
# 내부 레지스트리용 이미지 풀 시크릿
imagePullSecrets:
- name: wandb-registry-secret
# OpenShift 제한된 SCC에 대한 보안 컨텍스트
app:
image:
repository: registry.yourdomain.com/wandb/local
tag: 0.59.2
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
console:
image:
repository: registry.yourdomain.com/wandb/console
tag: 2.12.2
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
# api, executor, glue, parquet, weave에 대한 보안 컨텍스트 반복
# (간결성을 위해 생략)
보안 요구 사항에 맞는 포괄적인 OpenShift 설정 예제가 필요하면 W&B Support 또는 배정된 W&B 지원 엔지니어에게 문의하십시오.
W&B를 배포한 후 설치가 제대로 작동하는지 확인하세요:
설치를 검증하려면 W&B CLI 사용을 권장합니다. verify 명령은 모든 컴포넌트와 설정을 검증하는 여러 테스트를 실행합니다.
이 단계에서는 첫 번째 관리자 사용자 계정이 브라우저를 통해 생성되었다고 가정합니다.
설치를 검증하려면 다음 단계를 따르세요:
- W&B CLI를 설치합니다:
- W&B에 로그인합니다:
wandb login --host=https://YOUR_DNS_DOMAIN
예를 들어:
wandb login --host=https://wandb.company-name.com
- 설치를 확인하세요:
설치가 성공적으로 완료되고 W&B 배포가 완전히 정상적으로 동작하면 다음과 같은 출력이 표시됩니다:
기본 호스트 선택됨: https://wandb.company-name.com
이 테스트의 상세 로그 위치: /var/folders/pn/b3g3gnc11_sbsykqkm3tx5rh0000gp/T/tmpdtdjbxua/wandb
로그인 여부 확인 중...................................................✅
서명된 URL 업로드 확인 중..............................................✅
프록시를 통한 대용량 페이로드 전송 가능 여부 확인 중...................✅
기본 URL에 대한 요청 확인 중...........................................✅
서명된 URL을 통한 요청 확인 중.................................✅
버킷의 CORS 설정 확인 중...............................✅
wandb 패키지 버전 최신 여부 확인 중............................✅
기록된 메트릭 확인, 파일 저장 및 다운로드 중..................✅
아티팩트 저장 및 다운로드 워크플로 확인 중...........................✅
오류가 발생하면 W&B Support 팀에 문의하세요.
에어갭 배포인 경우, 다음 항목도 함께 검증합니다:
-
이미지 pull: 모든 파드가 내부 레지스트리에서 이미지를 성공적으로 pull 했는지 확인합니다:
kubectl get pods -n wandb -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.phase}{"\t"}{.status.containerStatuses[*].image}{"\n"}{end}'
모든 이미지는 내부 레지스트리를 가리켜야 하며, 모든 파드는 Running 상태여야 합니다.
-
외부 연결: 에어갭 모드에서는 W&B가 외부로 연결을 시도하지 않는지(원래 시도하지 않아야 합니다) 확인합니다:
kubectl logs -n wandb deployment/wandb-app --tail=100 | grep -i "connection"
-
라이선스 검증: W&B 콘솔에 접속해 라이선스가 활성 상태인지 확인합니다.
Pod가 이미지를 가져오지 못하는 경우:
-
내부 레지스트리에 이미지가 존재하는지 확인합니다.
-
image pull secret이 올바르게 구성되어 있는지 확인합니다.
-
Kubernetes 노드에서 레지스트리로의 네트워크 연결을 확인합니다.
-
레지스트리 인증 자격 증명이 올바른지 확인합니다.
# 이미지 pull을 수동으로 테스트
kubectl run test-pull --image=registry.yourdomain.com/wandb/local:0.59.2 --namespace=wandb
kubectl logs test-pull -n wandb
kubectl delete pod test-pull -n wandb
OpenShift에서 파드가 권한 오류로 실패하는 경우:
# 사용 중인 SCC 확인
oc get pod <pod-name> -n wandb -o yaml | grep scc
# 서비스 계정 권한 확인
oc describe scc wandb-scc
oc get rolebinding -n wandb
operator가 플랫폼 차트를 찾을 수 없는 경우에는 다음을 확인하세요.
-
Custom Resource에서 차트 리포지토리 URL을 확인합니다.
-
operator 파드가 내부 Helm 리포지토리에 접속할 수 있는지 확인합니다.
-
리포지토리에 해당 차트가 존재하는지 확인합니다:
helm search repo local-repo/operator-wandb
네, Custom Resource에서 인그레스 설정을 수정하여 인그레스 클래스를 설정하면 됩니다:
spec:
values:
ingress:
class: your-ingress-class
여러 개의 인증서가 포함된 인증서 번들은 어떻게 처리해야 하나요?
인증서를 customCACerts 섹션에서 여러 항목으로 나누어 설정하세요:
spec:
values:
customCACerts:
cert1.crt: |
-----BEGIN CERTIFICATE-----
...
-----END CERTIFICATE-----
cert2.crt: |
-----BEGIN CERTIFICATE-----
...
-----END CERTIFICATE-----
operator가 W&B를 자동으로 업데이트하지 않도록 다음과 같이 구성합니다:
- operator 설치 설정에서
airgapped: true로 지정합니다(자동 업데이트 확인이 비활성화됩니다).
- Custom Resource에서
spec.chart.version을 수동으로 업데이트하여 버전 업데이트를 제어합니다.
- 필요에 따라 W&B System Console에서 자동 업데이트를 비활성화합니다.
자세한 내용은 Disable automatic app version updates를 참고하세요.
W&B는 Self-Managed 인스턴스를 사용하는 고객이 지원을 유지하고 최신 기능, 성능 개선, 버그 수정을 받기 위해 최소 분기마다 한 번 이상 최신 릴리스로 배포를 업데이트할 것을 강력히 권장합니다. W&B는 메이저 릴리스를 최초 출시일로부터 12개월 동안 지원합니다. Release policies and processes를 참고하세요.
배포가 퍼블릭 리포지토리에 연결 없이도 작동하나요?
네. 오퍼레이터 설정에서 airgapped: true를 지정하면 Kubernetes 오퍼레이터는 내부 리소스만 사용하며 퍼블릭 리포지토리에 연결을 시도하지 않습니다.
망 분리(air-gapped) 환경에서 W&B를 어떻게 업데이트하나요?
W&B를 업데이트하려면 다음을 수행합니다:
-
인터넷에 연결된 시스템에서 새로운 컨테이너 이미지를 pull 합니다.
-
이미지를 망 분리(air-gapped) 레지스트리로 전송합니다.
-
새로운 Helm 차트를 내부 리포지토리에 업로드합니다.
-
Custom Resource에서
spec.chart.version과 이미지 태그를 업데이트합니다.
-
업데이트된 Custom Resource를 적용합니다.
그러면 오퍼레이터가 W&B 컴포넌트에 대해 롤링 업데이트를 수행합니다.
배포를 성공적으로 완료한 후 다음 작업을 수행하세요:
- 사용자 인증 구성: SSO 또는 기타 인증 방법을 설정합니다
- 모니터링 설정: W&B 인스턴스와 인프라에 대한 모니터링을 구성합니다
- 업데이트 계획 수립: 서버 업그레이드 프로세스를 검토하고 업데이트 주기를 수립합니다
- 백업 구성: MySQL 데이터베이스에 대한 백업 절차를 마련합니다
- 프로세스 문서화: 에어갭(air-gapped) 환경의 전용 업데이트 절차를 위한 런북(runbook)을 작성합니다
배포 중에 문제가 발생하면 다음을 수행하세요.