TypeScript で始める Weave クイックスタートガイド
- 言語モデルの入力、出力、およびトレースをログに記録してデバッグする
- 言語モデルのユースケース向けに、条件を揃えた厳密で一貫した評価を構築する
- 実験から評価、本番運用まで、LLM ワークフロー全体で生成されるあらゆる情報を整理・一元管理する
関数のトラッキング
weave.op ラッパーを追加します。
weave.op を追加してその関数を呼び出したら、W&B のダッシュボードにアクセスして、プロジェクト内でどのようにトラッキングされているかを確認できます。
コードは自動でトラッキングされます。UI の「Code」タブを確認してください。
OpenAI インテグレーション
- トークン使用量
- API コスト
- リクエスト/レスポンスのペア
- モデルの設定
OpenAI に加えて、Weave は Anthropic や Mistral など、他の LLM プロバイダーの自動ログ取得にも対応しています。対応プロバイダーの一覧については、インテグレーション ドキュメントの「LLM Providers」 を参照してください。
ネストされた関数のトラッキング
- アプリケーションのロジックフローを完全に可視化できる
- 複雑な処理チェーンのデバッグが容易になる
- パフォーマンス最適化の機会を見つけやすくなる
データセット管理
weave.Dataset クラスを使うと、Weave でデータセットを作成および管理できます。Weave Models と同様に、weave.Dataset は次のような用途に役立ちます:
- データの追跡とバージョン管理
- テストケースの整理
- チームメンバー間でのデータセット共有
- 体系的な評価の実行
評価フレームワーク
Evaluation クラス によって評価駆動の開発をサポートします。評価を行うことで、GenAI アプリケーションを着実に改善していくことができます。Evaluation クラスは次のことを行います:
ModelのパフォーマンスをDataset上で評価する- カスタムスコアリング関数を適用する
- 詳細なパフォーマンスレポートを生成する
- モデルのバージョン間の比較を可能にする
main 関数は、すべてのデモを実行します。