Pourquoi utiliser W&B Inference pour les LoRAs ?
- Chargez une fois, déployez instantanément — aucun serveur à gérer.
- Suivez précisément la version en production grâce à la gestion des versions des artifacts.
- Mettez à jour les modèles en quelques secondes en remplaçant de petits fichiers LoRA plutôt que l’ensemble des poids du modèle.
Flux de travail
- Téléversez vos poids LoRA en tant qu’artifact W&B
- Utilisez l’URI de l’artifact comme nom de votre modèle dans l’API
- W&B charge dynamiquement vos poids pour l’inférence
Prérequis
- Une clé API W&B
- Un projet W&B
- Python 3.8+ avec les paquets
openaietwandb:pip install wandb openai
Comment ajouter des LoRA et les utiliser
- Importer un LoRA entraîné ailleurs
- Entraîner un nouveau LoRA avec W&B
Importez votre propre répertoire LoRA personnalisé en tant qu’artifact W&B. C’est idéal si vous avez entraîné votre LoRA ailleurs (dans un environnement local, chez un fournisseur cloud ou via un service partenaire).Ce code Python importe les poids de votre LoRA stockés localement dans W&B en tant qu’artifact versionné. Il crée un artifact de type
lora avec les métadonnées requises (modèle de base et région de stockage), ajoute vos fichiers LoRA depuis un répertoire local, puis l’enregistre dans votre projet W&B pour l’utiliser avec Inference.Exigences clés
Pour utiliser vos propres LoRA avec Inference :- Le LoRA doit avoir été entraîné à l’aide de l’un des modèles listés dans la section Modèles de base pris en charge.
- Le LoRA doit être enregistré au format PEFT en tant qu’artifact de type
loradans votre compte W&B. - Le LoRA doit être stocké dans
storage_region="coreweave-us"pour garantir une faible latence. - Lors de l’importation, indiquez le nom du modèle de base sur lequel il a été entraîné (par exemple,
meta-llama/Llama-3.1-8B-Instruct). Cela garantit que W&B peut le charger avec le bon modèle.
Modèles de base pris en charge
wandb.base_model). D’autres modèles arriveront bientôt :
| ID du modèle (pour une utilisation via l’API) | Rang LoRA maximal |
|---|---|
meta-llama/Llama-3.1-70B-Instruct | 16 |
meta-llama/Llama-3.1-8B-Instruct | 16 |
openai/gpt-oss-120b | 64 |
OpenPipe/Qwen3-14B-Instruct | 16 |
Qwen/Qwen3-30B-A3B-Instruct-2507 | 16 |
Tarification
- Stockage - Le stockage des poids LoRA est peu coûteux, surtout comparé au coût d’exploitation de votre propre infrastructure GPU.
- Utilisation de l’inférence - Les appels qui utilisent des Artifacts LoRA sont facturés aux mêmes tarifs que l’inférence de modèle standard. Il n’y a pas de frais supplémentaires pour mettre en service des LoRA personnalisés.