- Distillation: より大きく高性能なモデルから、より小さく高速なモデルへ知識を蒸留・移転する
- 出力スタイルとフォーマットの学習: 特定の応答フォーマット、トーン、構造に従うようモデルを学習させる
- RL 前のウォームアップ: さらなる洗練のために強化学習を適用する前に、教師ありのサンプルでモデルを事前学習させる
なぜ Serverless SFT なのか?
- 学習コストの削減: 共通のインフラを多くのユーザーで共有し、ジョブごとのセットアッププロセスを省略し、アクティブに学習していないときは GPU コストを 0 までスケールダウンすることで、Serverless SFT は学習コストを大幅に削減します。
- 学習時間の短縮: 必要なときにすぐ学習用インフラをプロビジョニングすることで、Serverless SFT は学習ジョブを高速化し、高速な反復を可能にします。
- 自動デプロイ: Serverless SFT は、学習したすべてのチェックポイントを自動的にデプロイし、ホスティングインフラを手動で構築する必要をなくします。学習済みモデルには、ローカル、ステージング、本番などの環境から即座にアクセスしてテストできます。
Serverless SFT が W&B サービスをどのように利用するか
- Inference: モデルを実行するため
- Models: LoRA アダプターの学習中のパフォーマンスメトリクスを追跡するため
- Artifacts: LoRA アダプターを保存およびバージョン管理するため
- Weave (optional): 学習ループの各ステップでモデルがどのように応答するかを観測できるようにするため