メインコンテンツへスキップ
EvaluationLogger は、Python または TypeScript のコードから評価データを直接ログするための、柔軟で逐次的な方法を提供します。Weave の内部データ型について深い知識は不要です。ロガーをインスタンス化し、そのメソッド(log_predictionlog_scorelog_summary)を使って評価ステップを記録するだけでかまいません。 このアプローチは、ワークフローが複雑で、全体のデータセットやすべての scorer が最初から定義されていない場合に特に有用です。 あらかじめ DatasetScorer オブジェクトのリストを定義する必要がある標準の Evaluation オブジェクトとは対照的に、EvaluationLogger を使うと、個々の予測とそれに関連するスコアを、利用可能になったタイミングで逐次ログできます。
より構造化された評価を使いたいですか?あらかじめ定義されたデータセットと scorer を備えた、より設計方針のはっきりした評価フレームワークを利用したい場合は、Weave の標準 Evaluation フレームワーク を参照してください。EvaluationLogger は柔軟性を提供し、標準フレームワークは構造とガイダンスを提供します。

基本的なワークフロー

  1. ロガーの初期化: EvaluationLogger のインスタンスを作成し、必要に応じて modeldataset に関するメタデータを指定します。指定しない場合はデフォルト値が使用されます。
    LLM 呼び出し(例: OpenAI)におけるトークン使用量とコストを取得するには、任意の LLM 呼び出しより前に EvaluationLogger を初期化してください。 先に LLM を呼び出してから予測結果をログに記録した場合、トークンとコストのデータは取得されません。
  2. 予測結果のログ: システムからの各入力/出力ペアに対して log_prediction を呼び出します。
  3. スコアのログ: 返される ScoreLogger を使って、その予測に対して log_score を呼び出します。1 つの予測に対して複数のスコアを記録できます。
  4. 予測の完了: 予測のスコアをログしたら、必ず finish() を呼び出して予測を確定します。
  5. サマリーのログ: すべての予測処理が完了したら、log_summary を呼び出してスコアを集計し、任意のカスタムメトリクスを追加します。
ある予測に対して finish() を呼び出した後は、それ以上スコアをログすることはできません。
ここで説明したワークフローを示す Python コードについては、Basic example を参照してください。

基本的な例

次の例では、既存のコードにそのまま組み込む形で EvaluationLogger を使用して、予測とスコアを記録する方法を示します。
user_model モデル関数が定義され、入力のリストに適用されます。各サンプルについては次の処理を行います:
  • 入力と出力は log_prediction を使ってログされます。
  • 単純な正解度スコア (correctness_score) が log_score を使ってログされます。
  • finish() がその予測に対するログ処理を完了します。 最後に、log_summary が集計メトリクスを記録し、Weave におけるスコアの自動要約をトリガーします。
import weave
from openai import OpenAI
from weave import EvaluationLogger

weave.init('your-team/your-project')

# トークントラッキングを確実にするため、モデルを呼び出す前にEvaluationLoggerを初期化する
eval_logger = EvaluationLogger(
    model="my_model",
    dataset="my_dataset"
)

# 入力データの例(任意のデータ構造を使用可能)
eval_samples = [
    {'inputs': {'a': 1, 'b': 2}, 'expected': 3},
    {'inputs': {'a': 2, 'b': 3}, 'expected': 5},
    {'inputs': {'a': 3, 'b': 4}, 'expected': 7},
]

# OpenAIを使用したモデルロジックの例
@weave.op
def user_model(a: int, b: int) -> int:
    oai = OpenAI()
    response = oai.chat.completions.create(
        messages=[{"role": "user", "content": f"What is {a}+{b}?"}],
        model="gpt-4o-mini"
    )
    # レスポンスを何らかの形で使用する(ここでは簡略化のためa + bを返す)
    return a + b

# サンプルを反復処理し、予測してログを記録する
for sample in eval_samples:
    inputs = sample["inputs"]
    model_output = user_model(**inputs) # 入力をkwargsとして渡す

    # 予測の入力と出力をログに記録する
    pred_logger = eval_logger.log_prediction(
        inputs=inputs,
        output=model_output
    )

    # この予測のスコアを計算してログに記録する
    expected = sample["expected"]
    correctness_score = model_output == expected
    pred_logger.log_score(
        scorer="correctness", # スコアラーの文字列名
        score=correctness_score
    )

    # この予測のログ記録を完了する
    pred_logger.finish()

# 評価全体の最終サマリーをログに記録する。
# Weaveは上記でログに記録された'correctness'スコアを自動集計する。
summary_stats = {"subjective_overall_score": 0.8}
eval_logger.log_summary(summary_stats)

print("評価のログ記録が完了しました。Weave UIで結果を確認してください。")

高度な使い方

EvaluationLogger は、基本的なワークフローを超えて、より複雑な評価シナリオに対応するための柔軟なパターンを提供します。このセクションでは、自動的なリソース管理のためのコンテキストマネージャの利用、モデルの実行とロギングの分離、リッチなメディアデータの扱い、複数のモデル評価を横並びで比較するといった高度な手法を説明します。

コンテキストマネージャーの使用

EvaluationLogger は、予測とスコアの両方に対してコンテキストマネージャー(with 文)をサポートします。これにより、コードをよりクリーンに保ち、自動的なリソースクリーンアップを行い、LLM ジャッジ呼び出しのような入れ子の処理をより適切に追跡できます。 このコンテキストで with 文を使うことで、次のような利点があります:
  • コンテキスト終了時の finish() の自動呼び出し
  • 入れ子になった LLM 呼び出しに対するトークン/コストのより正確な追跡
  • 予測コンテキスト内で、モデル実行後に出力を設定できること
import openai
import weave

weave.init("nested-evaluation-example")
oai = openai.OpenAI()

# ロガーを初期化
ev = weave.EvaluationLogger(
    model="gpt-4o-mini",
    dataset="joke_dataset"
)

user_prompt = "Tell me a joke"

# 予測でコンテキストマネージャーを使用 - finish() を呼ぶ必要はない
with ev.log_prediction(inputs={"user_prompt": user_prompt}) as pred:
    # コンテキスト内でモデルを呼び出す
    result = oai.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": user_prompt}],
    )

    # モデル呼び出し後に出力を設定
    pred.output = result.choices[0].message.content

    # シンプルなスコアを記録
    pred.log_score("correctness", 1.0)
    pred.log_score("ambiguity", 0.3)
    
    # LLM 呼び出しが必要なスコアにはネストしたコンテキストマネージャーを使用
    with pred.log_score("llm_judge") as score:
        judge_result = oai.chat.completions.create(
            model="gpt-4o-mini",
            messages=[
                {"role": "system", "content": "Rate how funny the joke is from 1-5"},
                {"role": "user", "content": pred.output},
            ],
        )
        # 計算後にスコア値を設定
        score.value = judge_result.choices[0].message.content

# 'with' ブロックを抜けると finish() が自動的に呼ばれる

ev.log_summary({"avg_score": 1.0})
このパターンにより、すべての入れ子になった処理が追跡されて親の予測にひも付けられるため、Weave UI で正確なトークン使用量とコストデータを確認できます。

ログに記録する前に出力を取得する

まずモデルの出力を計算し、その後で予測値とスコアを別々にログに記録できます。これにより、評価ロジックとロギングロジックをより明確に分離できます。
# トークン追跡のために、モデルを呼び出す前に EvaluationLogger を初期化する
ev = EvaluationLogger(
    model="example_model",
    dataset="example_dataset"
)

# モデルの出力(例: OpenAI コール)は、トークン追跡のためにロガー初期化の後で実行する必要がある
outputs = [your_output_generator(**inputs) for inputs in your_dataset]
preds = [ev.log_prediction(inputs, output) for inputs, output in zip(your_dataset, outputs)]
for pred, output in zip(preds, outputs):
    pred.log_score(scorer="greater_than_5_scorer", score=output > 5)
    pred.log_score(scorer="greater_than_7_scorer", score=output > 7)
    pred.finish()

ev.log_summary()

リッチメディアをログに記録する

入力、出力、およびスコアには、画像、動画、音声、構造化テーブルなどのリッチメディアを含めることができます。log_predictionlog_score メソッドに dict またはメディアオブジェクトを渡すだけです。
import io
import wave
import struct
from PIL import Image
import random
from typing import Any
import weave

def generate_random_audio_wave_read(duration=2, sample_rate=44100):
    n_samples = duration * sample_rate
    amplitude = 32767  # 16-bit max amplitude

    buffer = io.BytesIO()

    # Write wave data to the buffer
    with wave.open(buffer, 'wb') as wf:
        wf.setnchannels(1)
        wf.setsampwidth(2)  # 16-bit
        wf.setframerate(sample_rate)

        for _ in range(n_samples):
            sample = random.randint(-amplitude, amplitude)
            wf.writeframes(struct.pack('<h', sample))

    # Rewind the buffer to the beginning so we can read from it
    buffer.seek(0)

    # Return a Wave_read object
    return wave.open(buffer, 'rb')

rich_media_dataset = [
    {
        'image': Image.new(
            "RGB",
            (100, 100),
            color=(
                random.randint(0, 255),
                random.randint(0, 255),
                random.randint(0, 255),
            ),
        ),
        "audio": generate_random_audio_wave_read(),
    }
    for _ in range(5)
]

@weave.op
def your_output_generator(image: Image.Image, audio) -> dict[str, Any]:
    return {
        "result": random.randint(0, 10),
        "image": image,
        "audio": audio,
    }

ev = EvaluationLogger(model="example_model", dataset="example_dataset")

for inputs in rich_media_dataset:
    output = your_output_generator(**inputs)
    pred = ev.log_prediction(inputs, output)
    pred.log_score(scorer="greater_than_5_scorer", score=output["result"] > 5)
    pred.log_score(scorer="greater_than_7_scorer", score=output["result"] > 7)

ev.log_summary()

複数の評価を記録して比較する

EvaluationLogger を使用すると、複数の評価を記録して比較できます。
  1. 以下のコードサンプルを実行します。
  2. Weave UI で Evals タブに移動します。
  3. 比較したい eval を選択します。
  4. Compare ボタンをクリックします。Compare ビューでは次のことができます:
    • 追加・削除する Evals を選択する
    • 表示・非表示にするメトリクスを選択する
    • 特定の例をページ送りしながら、同じ入力・同じデータセットに対して異なるモデルがどのような結果を出したかを確認する
    比較の詳細については、Comparisons を参照してください。
import weave

models = [
    "model1",
    "model2",
     {"name": "model3", "metadata": {"coolness": 9001}}
]

for model in models:
    # トークンを記録するために、モデル呼び出しの前に EvalLogger を初期化する必要があります
    ev = EvaluationLogger(
        name="comparison-eval",
        model=model, 
        dataset="example_dataset",
        scorers=["greater_than_3_scorer", "greater_than_5_scorer", "greater_than_7_scorer"],
        eval_attributes={"experiment_id": "exp_123"}
    )
    for inputs in your_dataset:
        output = your_output_generator(**inputs)
        pred = ev.log_prediction(inputs=inputs, output=output)
        pred.log_score(scorer="greater_than_3_scorer", score=output > 3)
        pred.log_score(scorer="greater_than_5_scorer", score=output > 5)
        pred.log_score(scorer="greater_than_7_scorer", score=output > 7)
        pred.finish()

    ev.log_summary()
Evals タブ
Comparison ビュー

使用上のヒント

  • 各予測の後はすぐに finish() を呼び出してください。
  • 単一の予測に紐づかないメトリクス(例: 全体のレイテンシー)を記録するには log_summary を使用します。
  • リッチメディアのロギングは定性的な分析に適しています。