Evaluation Playground

Playground で評価をセットアップする
- Weave UI を開き、評価を行いたいプロジェクトを開きます。Traces ページが開きます。
- Traces ページの左側メニューから Playground アイコンをクリックし、Playground ページで Evaluate タブを選択します。Evaluate ページでは、次のいずれかを実行できます。
- Load a demo example: 事前定義された設定が読み込まれ、MoonshotAI Kimi K2 モデルを期待される出力に対して評価し、LLM ジャッジを使って正しさを判定します。この設定を使ってインターフェースを試すことができます。
- Start from scratch: 空の設定が読み込まれ、そこから構築できます。
- Start from scratch を選択した場合は、Title フィールドと Description フィールドに、評価内容が分かるタイトルと説明を入力します。
データセットを追加する
.csv.tsv.json.jsonl
- ドロップダウンメニューをクリックし、次のいずれかを選択します:
- Start from scratch を選択して、UI で新しいデータセットを作成します。
- Upload a file を選択して、ローカルマシンからデータセットをアップロードします。
- すでにプロジェクトに保存されている既存のデータセットを選択します。
- 任意: Save をクリックして、後で使用できるようデータセットをプロジェクトに保存します。
UI から編集できるのは、新しく作成したデータセットのみです。また、スコアラーがデータにアクセスできるように、データセット内の列名を
user_input と expected_output に設定しておくことも重要です。モデルを追加する
- Add Model をクリックし、New Model を選択するか、ドロップダウンメニューから既存のモデルを選択します。
-
New Model を選択した場合、次の項目を設定します:
- Name: 新しいモデルに説明的な名前を付けます。
- LLM Model: OpenAI の GPT-4 など、新しいモデルのベースとするファウンデーションモデルを選択します。すでにアクセス権を設定済みのファウンデーションモデルの一覧から選択することも、Add AI provider を選択してモデルを選び、ファウンデーションモデルへのアクセスを追加することもできます。プロバイダーを追加すると、そのプロバイダーへのアクセス認証情報の入力を求められます。APIキーやエンドポイント、Weave を使ってモデルへアクセスするために必要な追加の設定情報の確認方法については、利用するプロバイダーのドキュメントを参照してください。
- System Prompt: モデルにどのように振る舞うかの指示を与えます。たとえば
You are a helpful assistant specializing in Python programming.のように記述します。データセットからのuser_inputは後続のメッセージとして送信されるため、システムプロンプトに含める必要はありません。
- 任意:Save をクリックして、後で利用できるようにモデルをプロジェクトに保存します。
- 任意:Add Model を再度クリックし、必要に応じて他のモデルを追加することで、同時に評価するモデルをさらに増やすことができます。
Scorer を追加する
-
Add Scorer をクリックし、次のフィールドを設定します:
- Name: scorer にわかりやすい名前を付けます。
-
Type: スコアの出力形式として boolean か number のいずれかを選択します。Boolean scorer は、モデルの出力が設定した評価パラメータを満たしているかどうかに応じて、二値の
TrueまたはFalseを返します。Number scorer は0から1の間のスコアを出力し、モデルの出力がどの程度評価パラメータを満たしているかの総合的な評価を提供します。 - LLM-as-a-judge-model: scorer のジャッジとして使用する foundation モデルを選択します。Models セクションの LLM Model フィールドと同様に、すでにアクセス設定済みの foundation モデルから選択するか、新たに foundation モデルへのアクセスを設定できます。
-
Scoring Prompt: LLM ジャッジがどの点を評価対象とするか、そのパラメータを指定します。たとえば、ハルシネーションを検出したい場合は、次のような scoring prompt を入力できます:
{user_input}、{expected_output}、{output}のように、スコアリングプロンプト内でデータセットやレスポンスのフィールドを変数として使用できます。利用可能な変数の一覧を表示するには、UI で Insert variable をクリックします。
- 任意: Save をクリックして、後で使用できるよう scorer をプロジェクトに保存します。
評価を実行する
- Evaluation Playground で評価を実行するには、Run eval をクリックします。
評価結果を確認する
