- Serverless RL: マルチターンのエージェント的タスクにおける信頼性を高めつつ、高速化とコスト削減を実現します。RL は、モデルが出力に対するフィードバックを通じて振る舞いの改善を学習する手法です。
- Serverless SFT: 蒸留や出力スタイル・フォーマットの学習、RL 実行前のウォームアップのために、キュレーションされたデータセットを使ってモデルをファインチューニングします。
- 柔軟なファインチューニングフレームワークである ART。
- 汎用検証器である RULER。
- CoreWeave Cloud 上のフルマネージドなバックエンド。