メインコンテンツへスキップ
これはインタラクティブなノートブックです。ローカルで実行するか、以下のリンクから開いてください:

Weave との統合: 本番環境ダッシュボード

GenAI のツールエコシステムは急速に進化しており、新しいフレームワーク、ツール、アプリケーションが次々と登場しています。Weave は、あらゆる GenAI のモニタリングと評価ニーズに対応するワンストップソリューションを目指しています。これは同時に、既存のプラットフォームと統合したり、プロジェクトや組織の特定の要件に合わせて Weave を拡張したりする必要が生じることも意味します。 このクックブックでは、Weave の強力な API と関数を活用して、Weave の Traces ビューを拡張する形で本番環境のモニタリング用カスタムダッシュボードを作成する方法を紹介します。ここでは次の点に焦点を当てます:
  • Weave からトレース、コスト、フィードバック、その他のメトリクスを取得する
  • ユーザーフィードバックとコスト分布の集約ビューを作成する
  • トークン使用量とレイテンシの時間推移の可視化を作成する
streamlit をインストールして、この本番ダッシュボードスクリプトを実行することで、自分の Weave プロジェクトでこのダッシュボードを試すことができます! Weave を使った本番ダッシュボードの例

1. セットアップ

このチュートリアルを進めるには、次のパッケージをインストールするだけです。
!pip install streamlit pandas plotly weave

2. 実装

2.1 Weave クライアントの初期化とコストの定義

はじめに、Weave クライアントを初期化し、各モデルのコストを定義する関数を用意します。
  • 多くの標準モデルについては標準コストをあらかじめ用意していますが、独自のカスタムコストやカスタムモデルも簡単に追加できます。以下では、いくつかのモデルに対してカスタムコストを追加し、それ以外については標準コストを利用する方法を示します。
  • コストは、Weave 内で各呼び出しごとに記録されたトークン数に基づいて計算されます。多くの LLM ベンダーのライブラリについてはトークン使用量を自動的に追跡しますが、任意の呼び出しに対してカスタムのトークン数を返すことも可能です。カスタムモデルに対してトークン数とコスト計算を定義する方法については、custom cost cookbook を参照してください。
PROJECT_NAME = "wandb-smle/weave-cookboook-demo"
python
import weave

MODEL_NAMES = [
    # モデル名、プロンプトコスト、補完コスト
    ("gpt-4o-2024-05-13", 0.03, 0.06),
    ("gpt-4o-mini-2024-07-18", 0.03, 0.06),
    ("gemini/gemini-1.5-flash", 0.00025, 0.0005),
    ("gpt-4o-mini", 0.03, 0.06),
    ("gpt-4-turbo", 0.03, 0.06),
    ("claude-3-haiku-20240307", 0.01, 0.03),
    ("gpt-4o", 0.03, 0.06),
]

def init_weave_client(project_name):
    try:
        client = weave.init(project_name)
        for model, prompt_cost, completion_cost in MODEL_NAMES:
            client.add_cost(
                llm_id=model,
                prompt_token_cost=prompt_cost,
                completion_token_cost=completion_cost,
            )
    except Exception as e:
        print(f"プロジェクト '{project_name}' の Weave クライアントの初期化に失敗しました: {e}")
        return None
    else:
        return client

client = init_weave_client(PROJECT_NAME)

2.2 Weave から Call データを取得する

Weave から Call データを取得するには、次の 2 通りの方法があります。
  1. Call ごとにデータを取得する
  2. 高水準 API を使用する

2.2.1 呼び出しごとにデータを取得する

Weave からデータにアクセスする最初の方法は、フィルタ済みの call のリストを取得し、目的のデータを呼び出しごとに抽出する方法です。そのために calls_query_stream API を使用して、Weave から calls データを取得できます。
  • calls_query_stream API: Weave から calls データを取得するための API です。
  • filter 辞書: calls データを取得するためのフィルタパラメータを含む辞書です。詳しくはこちらを参照してください。
  • expand_columns リスト: calls データ内で展開するカラムを含むリストです。
  • sort_by リスト: calls データのソートパラメータを含むリストです。
  • include_costs ブール値: calls データにコスト情報を含めるかどうかを示すブール値です。
  • include_feedback ブール値: calls データにフィードバックを含めるかどうかを示すブール値です。
import itertools
from datetime import datetime, timedelta

import pandas as pd

def fetch_calls(client, project_id, start_time, trace_roots_only, limit):
    filter_params = {
        "project_id": project_id,
        "filter": {"started_at": start_time, "trace_roots_only": trace_roots_only},
        "expand_columns": ["inputs.example", "inputs.model"],
        "sort_by": [{"field": "started_at", "direction": "desc"}],
        "include_costs": True,
        "include_feedback": True,
    }
    try:
        calls_stream = client.server.calls_query_stream(filter_params)
        calls = list(
            itertools.islice(calls_stream, limit)
        )  # 取得するコール数が多すぎる場合に制限する
        print(f"{len(calls)} 件のコールを取得しました。")
    except Exception as e:
        print(f"コールの取得中にエラーが発生しました: {e}")
        return []
    else:
        return calls

calls = fetch_calls(client, PROJECT_NAME, datetime.now() - timedelta(days=1), True, 100)
python
# 生データは Call オブジェクトのリスト
pd.DataFrame([call.dict() for call in calls]).head(3)
Weave の戻り値を使えば、コールを処理するのはとても簡単です。必要な情報だけを抽出して、辞書のリストとして保持します。その後、その辞書リストを pandas の DataFrame に変換して返します。
import json
from datetime import datetime

import pandas as pd

def process_calls(calls):
    records = []
    for call in calls:
        feedback = call.summary.get("weave", {}).get("feedback", [])
        thumbs_up = sum(
            1
            for item in feedback
            if isinstance(item, dict) and item.get("payload", {}).get("emoji") == "👍"
        )
        thumbs_down = sum(
            1
            for item in feedback
            if isinstance(item, dict) and item.get("payload", {}).get("emoji") == "👎"
        )
        latency = call.summary.get("weave", {}).get("latency_ms", 0)

        records.append(
            {
                "Call ID": call.id,
                "Trace ID": call.trace_id,  # トレースの取得に使用できる一意のIDです
                "Display Name": call.display_name,  # UIまたはプログラムから設定できる任意の名前です
                "Latency (ms)": latency,
                "Thumbs Up": thumbs_up,
                "Thumbs Down": thumbs_down,
                "Started At": pd.to_datetime(getattr(call, "started_at", datetime.min)),
                "Inputs": json.dumps(call.inputs, default=str),
                "Outputs": json.dumps(call.output, default=str),
            }
        )
    return pd.DataFrame(records)
python
df_calls = process_calls(calls)
df_calls.head(3)

2.2.2 高レベル API の使用

すべての呼び出しを一つひとつ確認する代わりに、Weave ではモデルのコスト、フィードバック、その他のメトリクスに直接アクセスできる高レベル API も提供しています。 たとえばコストについては、query_costs API を使用して、プロジェクト内で使用されたすべての LLM のコストを取得できます。
# コストAPIを使用してコストを取得する
costs = client.query_costs()
df_costs = pd.DataFrame([cost.dict() for cost in costs])
df_costs["total_cost"] = (
    df_costs["prompt_token_cost"] + df_costs["completion_token_cost"]
)

# llm_idごとに最初の行のみを表示する
df_costs

2.4 入力の収集と可視化の生成

次に、Plotly を使って可視化を作成します。これは最も基本的なダッシュボードですが、好みに合わせて自由にカスタマイズできます。より複雑な例については、Streamlit のサンプルをこちらで確認してください。
import plotly.express as px
import plotly.graph_objects as go

def plot_feedback_pie_chart(thumbs_up, thumbs_down):
    fig = go.Figure(
        data=[
            go.Pie(
                labels=["Thumbs Up", "Thumbs Down"],
                values=[thumbs_up, thumbs_down],
                marker={"colors": ["#66b3ff", "#ff9999"]},
                hole=0.3,
            )
        ]
    )
    fig.update_traces(textinfo="percent+label", hoverinfo="label+percent")
    fig.update_layout(showlegend=False, title="Feedback Summary")
    return fig

def plot_model_cost_distribution(df):
    fig = px.bar(
        df,
        x="llm_id",
        y="total_cost",
        color="llm_id",
        title="Cost Distribution by Model",
    )
    fig.update_layout(xaxis_title="Model", yaxis_title="Cost (USD)")
    return fig

# すべてのプロットのソースコードを参照
python
plot_feedback_pie_chart(df_calls["Thumbs Up"].sum(), df_calls["Thumbs Down"].sum())
python
plot_model_cost_distribution(df_costs)

まとめ

このクックブックでは、Weave の API と関数を使って、カスタムの本番環境監視用ダッシュボードを作成する方法を紹介しました。Weave は現在、データの取り込みとカスタム処理向けのデータ抽出を簡単かつ高速に行うためのインテグレーションに重点を置いています。
  • データ入力:
    • @weave-op() デコレータを用いたフレームワーク非依存のトレース機能と、CSV からの呼び出しインポート機能(関連する import cookbook を参照)
    • さまざまなプログラミングフレームワークと言語から Weave にログを送信するための Service API エンドポイント。詳細はこちらを参照してください。
  • データ出力:
    • CSV、TSV、JSONL、JSON 形式でデータを簡単にダウンロード可能です。詳細はこちらを参照してください。
    • プログラムによるデータアクセスを使った簡単なエクスポート - 本クックブックで説明したように、エクスポートパネル内の「Use Python」セクションを参照してください。詳細はこちらを参照してください。
このカスタムダッシュボードは Weave の標準の Traces ビューを拡張し、本番環境での LLM アプリケーションを用途に合わせて監視できるようにします。より複雑なダッシュボードを見たい場合は、独自の Weave プロジェクト URL を追加できる Streamlit のサンプルをこのリポジトリで確認してください。