W&B Training - Weights & Biases Documentation

現在パブリックプレビュー中の W&B Training は、大規模言語モデル（LLM）向けのサーバーレスなポストトレーニングを提供し、強化学習（RL）と教師ありファインチューニング（SFT）の両方に対応します。

Serverless RL: マルチターンのエージェント的タスクにおける信頼性を高めつつ、高速化とコスト削減を実現します。RL は、モデルが出力に対するフィードバックを通じて振る舞いの改善を学習する手法です。
Serverless SFT: 蒸留や出力スタイル・フォーマットの学習、RL 実行前のウォームアップのために、キュレーションされたデータセットを使ってモデルをファインチューニングします。

W&B Training には次のインテグレーションが含まれます:

柔軟なファインチューニングフレームワークである ART。
汎用検証器である RULER。
CoreWeave Cloud 上のフルマネージドなバックエンド。

利用を開始するには、まずサービス利用の前提条件を満たしてください。その後、モデルのポストトレーニング方法を学ぶために、Serverless RL クイックスタートまたは Serverless SFT ドキュメントを参照してください。

⌘I