- LLM アプリケーションを観測してデバッグする
- LLM ジャッジとカスタムスコアラーを使って、アプリケーションの応答を評価する
はじめに
クイックスタート: LLM の入出力をトラッキングする
まずは LLM への基本的な呼び出しをトレースし、W&B アカウントでデータを確認します。
アプリケーション評価の始め方
Weave scorers を使って評価パイプラインを構築し、アプリケーションのパフォーマンスをテストしてトラッキングする方法を学びます。
RAG アプリケーションを評価する
Weave と LLM ジャッジを使用して RAG アプリケーションを構築・評価し、リトリーバル品質を測定します。
Weave をインストールする
- Python
- TypeScript