メインコンテンツへスキップ

料金

料金体系は、推論、学習、ストレージの3つの要素から構成されています。具体的な料金については、料金ページをご覧ください。

推論

Serverless RL 推論リクエストの料金は、W&B Inference の料金と同じです。詳細は、モデルごとの料金を参照してください。クレジットの購入方法、アカウントプラン、使用量の上限については、W&B Inference ドキュメントを参照してください。

学習

各学習ステップで、Serverless RL はエージェントの出力と(報酬関数によって計算される)対応する報酬を含むトラジェクトリのバッチを収集します。バッチ化されたトラジェクトリは、あなたのタスクに合わせてベースモデルを特化させる LoRA アダプターの重みを更新するために使用されます。これらの LoRA を更新する学習ジョブは、Serverless RL が管理する専用の GPU クラスター上で実行されます。 パブリックプレビュー期間中、学習は無料です。

モデルストレージ

Serverless RL は、学習済みの LoRA のチェックポイントを保存し、いつでも評価、提供、あるいは学習を再開できるようにします。ストレージの料金は、合計チェックポイントサイズと料金プランに基づいて月ごとに請求されます。すべてのプランには少なくとも 5GB の無料ストレージが含まれており、これはおおよそ 30 個の LoRA に相当します。空き容量を確保するため、性能の低い LoRA は削除することをおすすめします。削除方法については、ART SDK を参照してください。

制限

  • Inference の同時実行制限: デフォルトでは、Serverless RL は現在、ユーザーあたり最大 2000 件、プロジェクトあたり最大 6000 件の同時リクエストをサポートします。レート制限を超えると、Inference API は 429 Concurrency limit reached for requests というレスポンスを返します。このエラーを回避するには、学習ジョブまたは本番ワークロードが一度に送信する同時リクエスト数を減らしてください。より高いレート制限が必要な場合は、support@wandb.com までお問い合わせください。
  • 地理的な制限: Serverless RL は、サポートされている地域でのみ利用可能です。詳細については、利用規約 を参照してください。