- Distillation: 더 크고 성능이 높은 모델의 지식을 더 작고 빠른 모델로 전이
- 출력 스타일 및 형식 학습: 특정 응답 형식, 톤, 구조를 따르도록 모델을 트레이닝
- RL 이전 워밍업: 추가적인 정제를 위해 강화 학습을 적용하기 전에 지도 학습 예제로 모델을 사전 트레이닝
왜 Serverless SFT인가?
- 더 낮은 트레이닝 비용: 다수의 사용자 간에 공용 인프라를 멀티플렉싱하여 공유하고, 각 작업마다 별도의 설정 과정을 건너뛰며, 트레이닝을 수행하지 않을 때 GPU 비용을 0까지 줄임으로써, Serverless SFT는 트레이닝 비용을 크게 절감합니다.
- 더 빠른 트레이닝 시간: 필요한 시점에 즉시 트레이닝 인프라를 프로비저닝함으로써, Serverless SFT는 트레이닝 작업을 가속하고 더 빠르게 반복 실험을 할 수 있게 해줍니다.
- 자동 배포: Serverless SFT는 트레이닝한 모든 체크포인트를 자동으로 배포하여, 호스팅 인프라를 수동으로 구성할 필요를 없애줍니다. 트레이닝된 모델은 로컬, 스테이징, 프로덕션 환경에서 즉시 접근하고 테스트할 수 있습니다.
Serverless SFT가 W&B 서비스를 사용하는 방식
- Inference: 모델을 실행하는 데 사용
- Models: LoRA 어댑터 트레이닝 동안 성능 메트릭을 추적하는 데 사용
- Artifacts: LoRA 어댑터를 저장하고 버전 관리를 하는 데 사용
- Weave (optional): 트레이닝 루프의 각 단계에서 모델 응답을 관측하는 데 사용