メインコンテンツへスキップ
LLM Evaluation Jobs は W&B Multi-tenant Cloudプレビュー として提供されています。プレビュー期間中のコンピュート料金は無料です。詳細はこちらをご覧ください。
このページでは、LLM Evaluation Jobs を使用して、公開 URL 上でホストされている API モデルに対して一連の評価用ベンチマークを実行する方法を説明します。W&B Models にアーティファクトとして保存されているモデル チェックポイントを評価する場合は、代わりに「モデル チェックポイントを評価する」を参照してください。

前提条件

  1. LLM Evaluation Job の要件と制限事項を確認します。
  2. 一部のベンチマークを実行するには、チーム管理者が必要な APIキーをチームスコープのシークレットとして追加しておく必要があります。任意のチームメンバーが、評価ジョブの設定時にそのシークレットを指定できます。
    • OpenAPI API key: OpenAI モデルをスコアリングに使用するベンチマークで使用します。ベンチマークを選択した後に Scorer API key フィールドが表示される場合は必須です。シークレット名は OPENAI_API_KEY である必要があります。
    • Hugging Face user access token: 1つ以上の制限付き Hugging Face データセットへのアクセスが必要な lingolylingoly2 など、特定のベンチマークで必要です。ベンチマークを選択した後に Hugging Face Token フィールドが表示される場合は必須です。APIキーには、該当するデータセットへのアクセス権が付与されている必要があります。Hugging Face のドキュメント User access tokens および accessing gated datasets を参照してください。
    • W&B Inference が提供するモデルを評価するには、組織またはチーム管理者が任意の値で WANDB_API_KEY を作成する必要があります。このシークレットは実際の認証には使用されません。
  3. 評価対象のモデルは、パブリックにアクセス可能な URL で利用できる必要があります。組織またはチーム管理者が、認証用の APIキーを含むチームスコープのシークレットを作成する必要があります。
  4. 評価結果を保存するための新しい W&B project を作成します。プロジェクトのサイドバーから Create new project をクリックします。
  5. 各ベンチマークについて、その仕組みや特有の要件を理解するためにドキュメントを確認します。参考として、Available evaluation benchmarks リファレンスに関連リンクがまとめられています。

モデルを評価する

評価ジョブをセットアップして起動するには、次の手順に従います。
  1. W&B にログインし、プロジェクトのサイドバーで Launch をクリックします。LLM Evaluation Jobs ページが表示されます。
  2. 評価をセットアップするには、Evaluate hosted API model をクリックします。
  3. 評価結果を保存する宛先プロジェクトを選択します。
  4. Model セクションで、評価対象のベース URL とモデル名を指定し、認証に使用する APIキー を選択します。AI Security Institute で定義されている OpenAI 互換形式でモデル名を指定します。たとえば、OpenAI モデルの場合は次の構文で指定します:openai/<model-name>。ホスト型モデルプロバイダとモデルの包括的な一覧については、AI Security Institute のモデルプロバイダリファレンス を参照してください。
    • W&B Inference が提供するモデルを評価するには、ベース URL を https://api.inference.wandb.ai/v1 に設定し、モデル名を次の構文で指定します:openai-api/wandb/<model_id>。詳細については Inference model catalog を参照してください。
    • OpenRouter プロバイダを使用するには、モデル名の前に openrouter を付け、次の構文で指定します:openrouter/<model-name>
    • OpenAPI 準拠のカスタムモデルを評価するには、モデル名を次の構文で指定します:openai-api/wandb/<model-name>
  5. Select evaluations をクリックし、実行するベンチマークを最大 4 つまで選択します。
  6. スコアリングに OpenAI モデルを使用するベンチマークを選択した場合は、Scorer API key フィールドが表示されます。そこをクリックし、OPENAI_API_KEY シークレットを選択します。必要に応じて、チーム管理者はこのドロワーから Create secret をクリックしてシークレットを作成できます。
  7. Hugging Face のゲート付きデータセットへのアクセスを必要とするベンチマークを選択した場合は、Hugging Face token フィールドが表示されます。該当データセットへのアクセスをリクエスト し、Hugging Face ユーザーアクセス用トークンを含むシークレットを選択します。
  8. 任意で、Sample limit に正の整数を設定して、評価するベンチマークサンプル数の上限を制限します。設定しない場合は、そのタスクのすべてのサンプルが含まれます。
  9. リーダーボードを自動で作成するには、Publish results to leaderboard をクリックします。リーダーボードには、すべての評価がワークスペースパネル内でまとめて表示され、レポート内で共有することもできます。
  10. Launch をクリックして評価ジョブを起動します。
  11. ページ上部の円形の矢印アイコンをクリックして、最近の run モーダルを開きます。評価ジョブは他の最近の run と一緒に表示されます。完了した run の名前をクリックすると単一 run ビューで開き、Leaderboard リンクをクリックするとリーダーボードを直接開きます。詳細は 結果を表示する を参照してください。
次の例では、simpleqa ベンチマークを OpenAI モデル o4-mini に対して実行しています:
Example hosted model evaluation job
次のリーダーボードの例では、複数の OpenAI モデルの性能をまとめて可視化しています:
Example leaderboard visualizing the performance of several hosted models

評価結果を確認する

宛先プロジェクトの Workspace 内で、W&B Models の評価ジョブ結果を確認します。
  1. ページ上部の円形の矢印アイコンをクリックして最近の run モーダルを開きます。ここに評価ジョブが、プロジェクト内の他の run と一緒に表示されます。評価ジョブにリーダーボードがある場合は、Leaderboard をクリックしてリーダーボードを全画面で開くか、run 名をクリックしてその run をプロジェクト内の単一 run ビューで開きます。
  2. ワークスペースの Evaluations セクション、または Weave サイドバー パネルの Traces タブで、評価ジョブのトレースを表示します。
  3. Overview タブをクリックして、評価ジョブの設定やサマリーメトリクスなどの詳細情報を表示します。
  4. Logs タブをクリックして、評価ジョブのデバッグログを表示、検索、またはダウンロードします。
  5. Files タブをクリックして、コード、ログ、設定ファイルやその他の出力ファイルを含む評価ジョブのファイルを参照、表示、またはダウンロードします。

リーダーボードをカスタマイズする

リーダーボードには、指定したプロジェクトに送信されたすべての評価ジョブの結果が表示され、評価ジョブ内のベンチマークごとに 1 行が割り当てられます。各列には、その評価ジョブのトレース、入力値、出力値などの詳細が表示されます。リーダーボードの詳細については、Leaderboards in Weave を参照してください。
リーダーボードの結果にフィードバックを送信するには、Feedback 列の絵文字アイコンまたはチャットアイコンをクリックします。
  • デフォルトでは、すべての評価ジョブが表示されます。左側の run セレクタを使用して、評価ジョブをフィルタリングまたは検索します。
  • デフォルトでは、評価ジョブはグループ化されていません。1 つ以上の列でグループ化するには、Group アイコンをクリックします。グループを表示または非表示にしたり、グループを展開してその中の run を表示できます。
  • デフォルトでは、すべてのオペレーションが表示されます。1 つのオペレーションのみを表示するには、All ops をクリックしてオペレーションを選択します。
  • 列でソートするには、列見出しをクリックします。列の表示をカスタマイズするには、Columns をクリックします。
    • デフォルトでは、ヘッダーは 1 階層で構成されています。ヘッダー階層の深さを増やして、関連するヘッダーをまとめて整理できます。
    • 個々の列を選択または選択解除して表示・非表示を切り替えるか、1 回のクリックですべての列を表示または非表示にできます。
    • 列を固定して、固定されていない列より前に表示します。

リーダーボードをエクスポートする

リーダーボードをエクスポートするには、次の手順を実行します。
  1. Columns ボタンの近くにあるダウンロードアイコンをクリックします。
  2. エクスポートサイズを抑えるため、デフォルトではトレースのルートのみがエクスポートされます。トレース全体をエクスポートするには、Trace roots only をオフにします。
  3. エクスポートサイズを抑えるため、デフォルトではフィードバックとコストはエクスポートされません。エクスポートに含めるには、Feedback または Costs をオンにします。
  4. デフォルトでは、エクスポート形式は JSONL です。形式を変更するには、Export to file をクリックして形式を選択します。
  5. ブラウザでリーダーボードをエクスポートするには、Export をクリックします。
  6. プログラムからリーダーボードをエクスポートするには、Python または cURL を選択し、Copy をクリックしてスクリプトまたはコマンドを実行します。

評価ジョブを再実行する

状況に応じて、評価ジョブを再実行したり、その設定を表示したりする方法が複数あります。
  • 直近の評価ジョブをもう一度実行するには、モデルを評価するの手順に従ってください。宛先プロジェクトを選択すると、前回選択したモデルアーティファクトの詳細とベンチマークが自動的に入力されます。必要に応じて調整を行い、その後評価ジョブを起動します。
  • プロジェクトの Runs タブまたは run セレクタから評価ジョブを再実行するには、run 名にカーソルを合わせて再生アイコンをクリックします。ジョブ設定ドロワーが表示され、設定があらかじめ入力されています。必要に応じて設定を調整し、Launch をクリックします。
  • 別のプロジェクトから評価ジョブを再実行するには、その設定をインポートします:
    1. モデルを評価するの手順に従います。宛先プロジェクトを選択した後、Import configuration をクリックします。
    2. インポートしたい評価ジョブを含むプロジェクトを選択し、その評価ジョブの run を選択します。ジョブ設定ドロワーが表示され、設定があらかじめ入力されています。
    3. 必要に応じて設定を調整します。
    4. Launch をクリックします。

評価ジョブの設定をエクスポートする

run の Files タブから評価ジョブの設定をエクスポートします。
  1. 対象の run を single-run view で開きます。
  2. Files タブをクリックします。
  3. config.yaml の横にあるダウンロードボタンをクリックして、ローカルにダウンロードします。