Weave の主要な柱
- アプリケーション内のあらゆる LLM 呼び出し、入力、出力に対する 可視性。
- 厳選したテストケースに対して性能を測定するための 体系的な評価。
- 何が変わったのかを把握できるようにする、プロンプト、モデル、データの バージョン管理。
- さまざまなプロンプトやモデルを比較するための 実験。
- 人間による判断やアノテーションを取得するための フィードバック収集。
- 本番環境で、ガードレールとスコアラーを用いて LLM の安全性と品質を確保するための モニタリング。
Traces
- アプリケーションの各利用時の入力と出力を確認できます。
- LLM の応答を生成するために使用された元のドキュメントを確認できます。
- LLM 呼び出しのコスト、トークン数、レイテンシを確認できます。
- 特定のプロンプトを詳しく掘り下げて、どのように回答が生成されたかを確認できます。
- ユーザーから応答に対するフィードバックを収集できます。
- コード内では、Weave の ops と calls を使用して、関数が何をしているかを追跡できます。
評価
- どのバージョンのモデルやプロンプトがどのようなパフォーマンスを示したかを簡単に追跡できます。
- 1 つ以上のスコアリング関数を使って応答を評価するためのメトリクスを定義します。
- 複数のメトリクスにわたって 2 つ以上の異なる評価を比較できます。特定のサンプル同士のパフォーマンスを対比して確認できます。
すべてをバージョン管理する
プロンプトとモデルを試す
フィードバックを収集
本番環境を監視する
Weave の使用を開始する
- https://wandb.ai/site で Weights & Biases アカウントを作成し、https://wandb.ai/authorize から APIキー を取得します
- Weave をインストールします:
- スクリプト内で Weave をインポートし、プロジェクトを初期化します:
- サポートされているインテグレーションに頼るだけでなく、呼び出す関数に 1 行追加するだけで、独自の関数のトレースを Weave に記録することもできます。
@weave.op() デコレータを付けるか、TypeScript で weave.op() でラップすると、Weave はそのコード、入力、出力、および実行メタデータを自動的に取得します。