メインコンテンツへスキップ
現在パブリックプレビュー中の W&B Training は、大規模言語モデル(LLM)向けのサーバーレスなポストトレーニングを提供し、強化学習(RL)と教師ありファインチューニング(SFT)の両方に対応します。
  • Serverless RL: マルチターンのエージェント的タスクにおける信頼性を高めつつ、高速化とコスト削減を実現します。RL は、モデルが出力に対するフィードバックを通じて振る舞いの改善を学習する手法です。
  • Serverless SFT: 蒸留や出力スタイル・フォーマットの学習、RL 実行前のウォームアップのために、キュレーションされたデータセットを使ってモデルをファインチューニングします。
W&B Training には次のインテグレーションが含まれます:
  • 柔軟なファインチューニングフレームワークである ART
  • 汎用検証器である RULER
  • CoreWeave Cloud 上のフルマネージドなバックエンド。
利用を開始するには、まずサービス利用の前提条件を満たしてください。その後、モデルのポストトレーニング方法を学ぶために、Serverless RL クイックスタート または Serverless SFT ドキュメント を参照してください。