Serverless RL

현재 퍼블릭 프리뷰로 제공되는 Serverless RL은 개발자가 LLM을 사후 트레이닝하여 새로운 동작을 학습시키고, 멀티턴 에이전트형 태스크를 수행할 때의 신뢰성, 속도, 비용을 개선할 수 있도록 돕습니다. W&B가 CoreWeave 위의 트레이닝 인프라를 대신 프로비저닝해 주면서도, 사용자의 환경 설정에는 완전한 유연성을 제공합니다. Serverless RL은 탄력적으로 오토스케일링되는 관리형 트레이닝 클러스터에 즉시 액세스할 수 있게 해 주며, 이를 통해 수십 개의 GPU를 활용할 수 있습니다. RL 워크플로를 추론 단계와 트레이닝 단계로 분리한 뒤 이를 여러 잡에 걸쳐 멀티플렉싱함으로써, Serverless RL은 GPU 활용도를 높이고 트레이닝 시간과 비용을 절감합니다. Serverless RL은 다음과 같은 작업에 특히 적합합니다.

음성 기반 에이전트
고급 리서치 어시스턴트
온프레미스 모델
콘텐츠 마케팅 분석 에이전트

Serverless RL은 저랭크 어댑터(LoRA)를 트레이닝하여 에이전트의 특정 태스크에 모델을 특화합니다. 이는 실제 작업 경험을 통해 원래 모델의 기능을 확장하는 방식입니다. 트레이닝한 LoRA는 사용자의 W&B 계정에 아티팩트로 자동 저장되며, 로컬이나 타사 스토리지에 백업할 수도 있습니다. Serverless RL을 통해 트레이닝한 모델은 W&B Inference에서 자동으로 호스팅됩니다. 시작하려면 ART 퀵스타트 또는 Google Colab 노트북을 참고하세요.

왜 Serverless RL인가?

강화학습(RL)은 직접 보유하거나 임대한 GPU를 포함해, 다양한 트레이닝 환경에서 활용할 수 있는 강력한 트레이닝 기법들의 집합입니다. Serverless RL은 RL 사후 트레이닝(post-training) 단계에서 다음과 같은 이점을 제공합니다:

더 낮은 트레이닝 비용: 여러 사용자가 인프라를 공유해 멀티플렉싱하고, 각 작업마다 별도의 설정 과정을 생략하며, 트레이닝을 수행하지 않을 때 GPU 비용을 0까지 줄임으로써, Serverless RL은 트레이닝 비용을 크게 절감합니다.
더 짧은 트레이닝 시간: 추론 요청을 여러 GPU에 분산하고, 필요할 때마다 즉시 트레이닝 인프라를 프로비저닝함으로써, Serverless RL은 트레이닝 작업을 가속하고 더 빠르게 실험을 반복할 수 있게 해줍니다.
자동 배포: Serverless RL은 트레이닝한 모든 체크포인트를 자동으로 배포하므로, 호스팅 인프라를 수동으로 구축할 필요가 없습니다. 트레이닝된 모델은 로컬, 스테이징, 프로덕션 환경에서 즉시 사용하고 테스트할 수 있습니다.

Serverless RL이 W&B 서비스를 사용하는 방법

Serverless RL은 운영을 위해 다음과 같은 W&B 컴포넌트를 조합해 사용합니다:

Inference: 모델을 실행하기 위해
Models: LoRA 어댑터의 트레이닝 동안 성능 메트릭을 추적하기 위해
Artifacts: LoRA 어댑터를 저장하고 버전 관리하기 위해
Weave (optional): 트레이닝 루프의 각 단계에서 모델 응답을 관측하기 위해

Serverless RL은 퍼블릭 프리뷰 단계에 있습니다. 프리뷰 기간 동안에는 Inference 사용과 아티팩트 저장에 대해서만 요금이 부과됩니다. W&B는 프리뷰 기간 동안 어댑터 트레이닝에 대해서는 요금을 부과하지 않습니다.

서버리스 RL

서버리스 SFT

API 레퍼런스

왜 Serverless RL인가?

Serverless RL이 W&B 서비스를 사용하는 방법

서버리스 RL

서버리스 SFT

API 레퍼런스

​왜 Serverless RL인가?

​Serverless RL이 W&B 서비스를 사용하는 방법

왜 Serverless RL인가?

Serverless RL이 W&B 서비스를 사용하는 방법