Passer au contenu principal
LoRA (Low-Rank Adaptation) vous permet de personnaliser de grands modèles de langage en n’entraînant et en ne stockant qu’un léger « module complémentaire », au lieu d’un tout nouveau modèle complet. Cela rend la personnalisation plus rapide, moins coûteuse et plus facile à déployer. Vous pouvez entraîner ou téléverser un LoRA pour donner à un modèle de base de nouvelles capacités, par exemple le spécialiser pour l’assistance client, l’écriture créative ou un domaine technique particulier. Cela vous permet d’adapter le comportement du modèle sans avoir à réentraîner ni à redéployer le modèle entier.

Pourquoi utiliser W&B Inference pour les LoRAs ?

  • Chargez une fois, déployez instantanément — aucun serveur à gérer.
  • Suivez précisément la version en production grâce à la gestion des versions des artifacts.
  • Mettez à jour les modèles en quelques secondes en remplaçant de petits fichiers LoRA plutôt que l’ensemble des poids du modèle.

Flux de travail

  1. Téléversez vos poids LoRA en tant qu’artifact W&B
  2. Utilisez l’URI de l’artifact comme nom de votre modèle dans l’API
  3. W&B charge dynamiquement vos poids pour l’inférence
Voici un exemple d’appel à votre modèle LoRA personnalisé avec W&B Inference :
from openai import OpenAI

model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/qwen_lora:latest"

client = OpenAI(
    base_url="https://api.inference.wandb.ai/v1",
    api_key=API_KEY,
    project=f"{WB_TEAM}/{WB_PROJECT}",
)

resp = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": "Say 'Hello World!'"}],
)
print(resp.choices[0].message.content)
Consultez ce notebook Getting Started pour une démonstration interactive montrant comment créer une LoRA et la téléverser vers W&B en tant qu’artifact.

Prérequis

Vous devez disposer des éléments suivants :

Comment ajouter des LoRA et les utiliser

Vous pouvez ajouter des LoRA à votre compte W&B et commencer à les utiliser de deux manières :
Importez votre propre répertoire LoRA personnalisé en tant qu’artifact W&B. C’est idéal si vous avez entraîné votre LoRA ailleurs (dans un environnement local, chez un fournisseur cloud ou via un service partenaire).Ce code Python importe les poids de votre LoRA stockés localement dans W&B en tant qu’artifact versionné. Il crée un artifact de type lora avec les métadonnées requises (modèle de base et région de stockage), ajoute vos fichiers LoRA depuis un répertoire local, puis l’enregistre dans votre projet W&B pour l’utiliser avec Inference.
import wandb

run = wandb.init(entity=WB_TEAM, project=WB_PROJECT)

artifact = wandb.Artifact(
    "qwen_lora",
    type="lora",
    metadata={"wandb.base_model": "OpenPipe/Qwen3-14B-Instruct"},
    storage_region="coreweave-us",
)

artifact.add_dir("<path-to-lora-weights>")
run.log_artifact(artifact)

Exigences clés

Pour utiliser vos propres LoRA avec Inference :
  • Le LoRA doit avoir été entraîné à l’aide de l’un des modèles listés dans la section Modèles de base pris en charge.
  • Le LoRA doit être enregistré au format PEFT en tant qu’artifact de type lora dans votre compte W&B.
  • Le LoRA doit être stocké dans storage_region="coreweave-us" pour garantir une faible latence.
  • Lors de l’importation, indiquez le nom du modèle de base sur lequel il a été entraîné (par exemple, meta-llama/Llama-3.1-8B-Instruct). Cela garantit que W&B peut le charger avec le bon modèle.
Une fois votre LoRA ajouté à votre projet en tant qu’artifact, utilisez l’URI de l’artifact dans vos appels d’inférence, comme ceci :
# Une fois l'entraînement terminé, utilisez votre artifact directement
model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/your_trained_lora:latest"

Modèles de base pris en charge

Inférence prend actuellement en charge les LLM suivants (utilisez exactement les chaînes indiquées dans wandb.base_model). D’autres modèles arriveront bientôt :
ID du modèle (pour une utilisation via l’API)Rang LoRA maximal
meta-llama/Llama-3.1-70B-Instruct16
meta-llama/Llama-3.1-8B-Instruct16
openai/gpt-oss-120b64
OpenPipe/Qwen3-14B-Instruct16
Qwen/Qwen3-30B-A3B-Instruct-250716

Tarification

L’inférence LoRA sans serveur est simple et économique : vous ne payez que le stockage et les inférences que vous exécutez réellement, au lieu de payer pour des serveurs toujours actifs ou des instances GPU dédiées.
  • Stockage - Le stockage des poids LoRA est peu coûteux, surtout comparé au coût d’exploitation de votre propre infrastructure GPU.
  • Utilisation de l’inférence - Les appels qui utilisent des Artifacts LoRA sont facturés aux mêmes tarifs que l’inférence de modèle standard. Il n’y a pas de frais supplémentaires pour mettre en service des LoRA personnalisés.