メインコンテンツへスキップ
W&B Skills は、コーディングエージェントに W&B を効果的に使用する方法を教える、再利用可能な命令セットです。W&B API やベストプラクティスを手動でエージェントに案内する代わりに Skills をインストールすると、エージェントが実験管理、トレース、評価、モニタリングを自力で行えるようになります。 Skills は、以下を含む主要なコーディングエージェントのいくつかで動作します。
  • Claude Code
  • Codex
  • Cursor
  • GitHub Copilot
  • Gemini CLI
サポートされているエージェントの一覧については、W&B Skills CLI ドキュメントを参照してください。

W&B Skills の機能

Skills は、W&B Models SDK (training runs、メトリクス、Artifacts、Sweeps) と Weave SDK (トレース、評価、スコアラー) の両方をカバーしています。ヘルパーライブラリ、リファレンスドキュメント、データ分析パターンが含まれます。
ワークフロー機能
モデル トレーニング
  • トレーニングやファインチューニング中に、メトリクスとリッチメディアをログできます。
  • 実験をトラッキングして比較できます。
  • Runs や結果 (損失曲線や精度スコアなど) を分析できます。
  • ハイパーパラメーターを調整できます。
エージェント構築
  • エージェント型 AI アプリケーションをトレースできます。
  • トレースを分析し、失敗モードを分類できます。
  • ラベル付きデータセットを使って、モデルやエージェントを評価できます。
  • 本番監視のためのオンライン評価を実行できます。

前提条件

Skills を使用するには、以下が必要です。
  • npx コマンドを使用するための Node.js
  • W&B APIキー。wandb.ai/authorize で作成し、環境変数として設定します。
    export WANDB_API_KEY=<your-api-key>
    
  • (任意) W&B のプロジェクト名を WANDB_PROJECT 環境変数に設定します。これにより、毎回指定しなくても、エージェント が正しい W&B プロジェクトを対象にできるようになります。

W&B Skills をインストールする

W&B Skills をグローバルにインストールするには、--global フラグを付けて次のコマンドを実行します。
npx skills add wandb/skills --skill '*' --yes --global
特定のプロジェクトに Skills をインストールするには、プロジェクトディレクトリで次のコマンドを実行します。
npx skills add wandb/skills --skill '*' --yes
特定のエージェント用のSkillsをインストールするには、--agent フラグも使えます。
npx skills add wandb/skills --agent claude-code --skill '*' --yes --global
--agent および --skill オプションの一覧は、skills CLI ドキュメントを参照してください。

W&B Skills を使用する

インストール後は、プロジェクトに関する W&B 関連のタスクを実行するよう エージェント に依頼できます。以下のプロンプト例は、エージェント が W&B Skills で実行できるタスクの一部を示しています。
  • “PyTorch モデルのトレーニングメトリクスを W&B にログしてください。”
  • “直近 10 件の run の損失曲線を分析し、最も高いパフォーマンスを示した設定を特定してください。”
  • “LangChain エージェント をトレースし、結果を Weave にログしてください。”
  • “テスト用データセットを使用して エージェント を評価し、結果を要約してください。”
  • “直近の評価における失敗モードを見つけて分類してください。”
  • “run A と run B の設定を比較し、差分を表示してください。“

使用のヒント

Skills は、幅広い自由回答形式の質問よりも、具体的なクエリを使用したほうがより適切に応答できます。次の表では、推奨されるプロンプト例と、曖昧すぎるプロンプト例を示します。
推奨非推奨
”直近 5 件の Runs の最終検証損失は何ですか?""私のモデルの調子はどうですか?"
"直近 10 件のトレースの token usage を要約してください。""私のトレースをすべて表示してください。"
"run A と run B の設定を比較してください。""最も良い Runs はどれですか?"
"どの eval の F1 スコアが最も高かったですか?""私の評価はどうなっていますか?”