Serverless RL

現在パブリックプレビュー中の Serverless RL は、開発者が LLM を追加学習させて新しい振る舞いを獲得させたり、マルチターンのエージェントタスクを実行する際の信頼性・速度・コストを改善したりするのに役立ちます。W&B が学習インフラストラクチャ（CoreWeave 上）をプロビジョニングしつつ、環境セットアップの自由度は十分に確保されます。Serverless RL によって、必要に応じて数十基の GPU まで弾力的に自動スケールするマネージド学習クラスタへ即座にアクセスできます。RL ワークフローを推論フェーズと学習フェーズに分割し、それらを複数ジョブにまたがって多重化することで、Serverless RL は GPU 利用率を高め、学習時間とコストを削減します。 Serverless RL は次のようなタスクに最適です:

音声エージェント
高度なリサーチアシスタント
オンプレミスのモデル
コンテンツマーケティング分析エージェント

Serverless RL は、低ランクアダプタ（LoRA）を学習して、エージェント固有のタスク向けにモデルを特化させます。これにより、実運用での経験を通じて元のモデルの能力を拡張できます。学習した LoRA は自動的に W&B アカウントのアーティファクトとして保存され、ローカルやサードパーティにバックアップとして保存することもできます。Serverless RL を通じて学習したモデルは、W&B Inference 上に自動的にホスティングされます。始めるには、ART のクイックスタートまたは Google Colab ノートブックを参照してください。

なぜ Serverless RL なのか？

強化学習（Reinforcement Learning; RL）は、手元の GPU やレンタルした GPU 上など、さまざまな学習セットアップで利用できる強力な学習手法の集合です。Serverless RL を使うことで、RL のポストトレーニング段階において次のような利点が得られます。

学習コストの削減: 多数のユーザー間でインフラを効率的に共用し、ジョブごとのセットアップ処理を省略し、アクティブに学習していないときには GPU コストを 0 までスケールダウンすることで、Serverless RL は学習コストを大幅に削減します。
学習時間の短縮: 推論リクエストを多数の GPU に分散し、必要なときにすぐに学習用インフラをプロビジョニングすることで、Serverless RL は学習ジョブを高速化し、イテレーションをより速く回せるようにします。
自動デプロイ: Serverless RL は学習したすべてのチェックポイントを自動的にデプロイするため、ホスティングインフラを手動で構築する必要がありません。学習済みモデルには、ローカル環境・ステージング環境・本番環境などから直ちにアクセスしてテストできます。

Serverless RL が W&B サービスをどのように利用するか

Serverless RL は、動作させるために次の W&B コンポーネントを組み合わせて利用します。

Inference: モデルを実行するため
Models: LoRA アダプターの学習中のパフォーマンスメトリクスを追跡するため
Artifacts: LoRA アダプターを保存およびバージョン管理するため
Weave (optional): 学習ループの各ステップでモデルがどのように応答しているかを観測できるようにするため

Serverless RL はパブリックプレビュー段階です。プレビュー期間中は、推論の利用とアーティファクトの保存に対してのみ料金が発生します。W&B は、プレビュー期間中のアダプターの学習については料金を請求しません。

サーバーレスRL

サーバーレスSFT

API リファレンス

なぜ Serverless RL なのか？

Serverless RL が W&B サービスをどのように利用するか

サーバーレスRL

サーバーレスSFT

API リファレンス

​なぜ Serverless RL なのか？

​Serverless RL が W&B サービスをどのように利用するか

なぜ Serverless RL なのか？

Serverless RL が W&B サービスをどのように利用するか