LLM 評価ジョブ

LLM Evaluation Jobs は、CoreWeave が管理するインフラストラクチャを利用して LLM のパフォーマンスを評価するためのベンチマーク用フレームワークです。最新かつ業界標準のモデル評価ベンチマークの充実したスイートから選択し、W&B Models の自動リーダーボードとチャートを使って結果を表示、分析、共有できます。LLM Evaluation Jobs を使うことで、自分で GPU インフラストラクチャをデプロイおよび運用・保守する際の複雑さを解消できます。

LLM Evaluation Jobs は W&B Multi-tenant Cloud で プレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。

仕組み

数ステップで、モデルチェックポイントまたは公開されている OpenAI 互換のホスト型モデルを評価できます。

W&B Models で評価ジョブをセットアップします。ベンチマークや、リーダーボードを生成するかどうかといった設定を行います。
評価ジョブを起動します。
結果とリーダーボードを表示して分析します。

同じ宛先プロジェクトに対して評価ジョブを起動するたびに、そのプロジェクトのリーダーボードが自動的に更新されます。

次のステップ

詳細

料金

LLM Evaluation Jobs は、インフラストラクチャの管理が不要な完全マネージドの CoreWeave コンピュート上で、一般的なベンチマークに対してモデルのチェックポイントまたはホストされた API を評価します。アイドル時間ではなく、実際に使用したリソース分のみを支払います。料金はコンピュートとストレージの 2 つの要素から成ります。コンピュートはパブリックプレビュー期間中は無料で、一般提供時に料金を発表します。保存される結果には、Models の run に保存されるメトリクスおよびサンプルごとのトレースが含まれます。ストレージは、データ量に基づいて月次で課金されます。プレビュー期間中、LLM Evaluation Jobs は Multi-tenant Cloud でのみ利用可能です。詳細は Pricing ページを参照してください。

ジョブの制限

各評価ジョブには次の制限があります。

評価対象のモデルの最大サイズは、コンテキストを含めて 86 GB です。
各ジョブで使用できる GPU は最大 2 基までです。

要件

モデルチェックポイントを評価するには、モデルの重みを VLLM 互換のアーティファクトとしてパッケージ化する必要があります。詳細とコード例については、Example: Prepare a model を参照してください。
OpenAI 互換のモデルを評価するには、そのモデルがパブリック URL からアクセス可能であり、かつ組織またはチームの管理者が認証用の APIキーを含むチームシークレットを設定する必要があります。
一部のベンチマークはスコアリングに OpenAI モデルを使用します。これらのベンチマークを実行するには、組織またはチームの管理者が必要な APIキーを含むチームシークレットを設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、Evaluation benchmark catalog を参照してください。
一部のベンチマークでは、Hugging Face のアクセス制限付き（gated）データセットへのアクセスが必要です。これらのベンチマークのいずれかを実行するには、組織またはチームの管理者が Hugging Face 上のアクセス制限付きデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセストークンを生成し、それをチームシークレットとして設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、Evaluation benchmark catalog を参照してください。

これらの要件を満たすための詳細および手順については、以下を参照してください。

ガイド

インテグレーション

リファレンス

仕組み

次のステップ

詳細

料金

ジョブの制限

要件

ガイド

インテグレーション

リファレンス

​仕組み

​次のステップ

​詳細

​料金

​ジョブの制限

​要件

仕組み

次のステップ

詳細

料金

ジョブの制限

要件