メインコンテンツへスキップ
LLM Evaluation Jobs は、CoreWeave が管理するインフラストラクチャを利用して LLM のパフォーマンスを評価するためのベンチマーク用フレームワークです。最新かつ業界標準のモデル評価ベンチマークの充実したスイートから選択し、W&B Models の自動リーダーボードとチャートを使って結果を表示、分析、共有できます。LLM Evaluation Jobs を使うことで、自分で GPU インフラストラクチャをデプロイおよび運用・保守する際の複雑さを解消できます。
LLM Evaluation Jobs は W&B Multi-tenant Cloudプレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。

仕組み

数ステップで、モデルチェックポイントまたは公開されている OpenAI 互換のホスト型モデルを評価できます。
  1. W&B Models で評価ジョブをセットアップします。ベンチマークや、リーダーボードを生成するかどうかといった設定を行います。
  2. 評価ジョブを起動します。
  3. 結果とリーダーボードを表示して分析します。
同じ宛先プロジェクトに対して評価ジョブを起動するたびに、そのプロジェクトのリーダーボードが自動的に更新されます。
評価ジョブのリーダーボードの例

次のステップ

詳細

料金

LLM Evaluation Jobs は、インフラストラクチャの管理が不要な完全マネージドの CoreWeave コンピュート上で、一般的なベンチマークに対してモデルのチェックポイントまたはホストされた API を評価します。アイドル時間ではなく、実際に使用したリソース分のみを支払います。料金はコンピュートとストレージの 2 つの要素から成ります。コンピュートはパブリックプレビュー期間中は無料で、一般提供時に料金を発表します。保存される結果には、Models の run に保存されるメトリクスおよびサンプルごとのトレースが含まれます。ストレージは、データ量に基づいて月次で課金されます。プレビュー期間中、LLM Evaluation Jobs は Multi-tenant Cloud でのみ利用可能です。詳細は Pricing ページを参照してください。

ジョブの制限

各評価ジョブには次の制限があります。
  • 評価対象のモデルの最大サイズは、コンテキストを含めて 86 GB です。
  • 各ジョブで使用できる GPU は最大 2 基までです。

要件

  • モデルチェックポイントを評価するには、モデルの重みを VLLM 互換のアーティファクトとしてパッケージ化する必要があります。詳細とコード例については、Example: Prepare a model を参照してください。
  • OpenAI 互換のモデルを評価するには、そのモデルがパブリック URL からアクセス可能であり、かつ組織またはチームの管理者が認証用の APIキー を含むチームシークレットを設定する必要があります。
  • 一部のベンチマークはスコアリングに OpenAI モデルを使用します。これらのベンチマークを実行するには、組織またはチームの管理者が必要な APIキー を含むチームシークレットを設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、Evaluation benchmark catalog を参照してください。
  • 一部のベンチマークでは、Hugging Face のアクセス制限付き(gated)データセットへのアクセスが必要です。これらのベンチマークのいずれかを実行するには、組織またはチームの管理者が Hugging Face 上のアクセス制限付きデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセストークンを生成し、それをチームシークレットとして設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、Evaluation benchmark catalog を参照してください。
これらの要件を満たすための詳細および手順については、以下を参照してください。