なぜ LoRA に W&B Inference を使うのか?
- 一度アップロードするだけで即座にデプロイ可能 — サーバーの管理は不要です。
- アーティファクトのバージョニングにより、どのバージョンが稼働中かを正確に追跡できます。
- モデルの全重みではなく小さな LoRA ファイルを差し替えるだけで、数秒でモデルを更新できます。
ワークフロー
- LoRA の重みを W&B のアーティファクトとしてアップロードします
- API でモデル名としてアーティファクト URI を指定します
- 推論時に W&B が動的に重みを読み込みます
前提条件
- W&B APIキー
- W&B プロジェクト
- Python 3.8+(
openaiとwandbパッケージをインストール済み):pip install wandb openai
LoRA を追加して使う方法
- 他の環境で学習した LoRA をアップロードする
- W&B で新しい LoRA を学習する
独自のカスタム LoRA ディレクトリを W&B アーティファクトとしてアップロードします。ローカル環境、クラウドプロバイダ、パートナーサービスなど、別の環境で LoRA を学習した場合に最適です。次の Python コードは、ローカルに保存されている LoRA の重みをバージョン付きアーティファクトとして W&B にアップロードします。必要なメタデータ(ベースモデルとストレージリージョン)を含む
lora タイプのアーティファクトを作成し、ローカルディレクトリから LoRA ファイルを追加して、推論で利用できるように W&B プロジェクトにログします。重要な要件
独自の LoRA を Inference で使用するには、次の要件を満たす必要があります。- LoRA は、サポートされているベースモデル に記載されているいずれかのモデルを使って学習されている必要があります。
- PEFT 形式で保存された LoRA を、W&B アカウント内で
loraタイプのアーティファクトとして保存していること。 - サポートされる最大ランクは 16 です。
- 低レイテンシのため、LoRA は
storage_region="coreweave-us"に保存されている必要があります。 - アップロード時には、学習に使用したベースモデル名(例:
meta-llama/Llama-3.1-8B-Instruct)を含めてください。これにより、W&B が正しいモデルで読み込めるようになります。
サポートされているベースモデル
wandb.base_model には、これらとまったく同じ文字列を使用する必要があります)。今後、さらに多くのモデルが追加される予定です。
meta-llama/Llama-3.1-70B-Instructmeta-llama/Llama-3.1-8B-InstructOpenPipe/Qwen3-14B-InstructQwen/Qwen3-30B-A3B-Instruct-2507Qwen/Qwen2.5-14B-Instruct