Utiliser l'inférence LoRA serverless

LoRA (Low-Rank Adaptation) vous permet de personnaliser de grands modèles de langage en n’entraînant et en ne stockant qu’un léger « module complémentaire », au lieu d’un tout nouveau modèle complet. Cela rend la personnalisation plus rapide, moins coûteuse et plus facile à déployer. Vous pouvez entraîner ou téléverser un LoRA pour donner à un modèle de base de nouvelles capacités, par exemple le spécialiser pour l’assistance client, l’écriture créative ou un domaine technique particulier. Cela vous permet d’adapter le comportement du modèle sans avoir à réentraîner ni à redéployer le modèle entier.

Pourquoi utiliser W&B Inference pour les LoRAs ?

Chargez une fois, déployez instantanément — aucun serveur à gérer.
Suivez précisément la version en production grâce à la gestion des versions des artifacts.
Mettez à jour les modèles en quelques secondes en remplaçant de petits fichiers LoRA plutôt que l’ensemble des poids du modèle.

Flux de travail

Téléversez vos poids LoRA en tant qu’artifact W&B
Utilisez l’URI de l’artifact comme nom de votre modèle dans l’API
W&B charge dynamiquement vos poids pour l’inférence

Voici un exemple d’appel à votre modèle LoRA personnalisé avec W&B Inference :

from openai import OpenAI

model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/qwen_lora:latest"

client = OpenAI(
    base_url="https://api.inference.wandb.ai/v1",
    api_key=API_KEY,
    project=f"{WB_TEAM}/{WB_PROJECT}",
)

resp = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": "Say 'Hello World!'"}],
)
print(resp.choices[0].message.content)

Consultez ce notebook Getting Started pour une démonstration interactive montrant comment créer une LoRA et la téléverser vers W&B en tant qu’artifact.

Prérequis

Vous devez disposer des éléments suivants :

Une clé API W&B
Un projet W&B
Python 3.8+ avec les paquets openai et wandb : pip install wandb openai

Comment ajouter des LoRA et les utiliser

Vous pouvez ajouter des LoRA à votre compte W&B et commencer à les utiliser de deux manières :

Importer un LoRA entraîné ailleurs
Entraîner un nouveau LoRA avec W&B

Importez votre propre répertoire LoRA personnalisé en tant qu’artifact W&B. C’est idéal si vous avez entraîné votre LoRA ailleurs (dans un environnement local, chez un fournisseur cloud ou via un service partenaire).Ce code Python importe les poids de votre LoRA stockés localement dans W&B en tant qu’artifact versionné. Il crée un artifact de type lora avec les métadonnées requises (modèle de base et région de stockage), ajoute vos fichiers LoRA depuis un répertoire local, puis l’enregistre dans votre projet W&B pour l’utiliser avec Inference.

import wandb

run = wandb.init(entity=WB_TEAM, project=WB_PROJECT)

artifact = wandb.Artifact(
    "qwen_lora",
    type="lora",
    metadata={"wandb.base_model": "OpenPipe/Qwen3-14B-Instruct"},
    storage_region="coreweave-us",
)

artifact.add_dir("<path-to-lora-weights>")
run.log_artifact(artifact)

Exigences clés

Pour utiliser vos propres LoRA avec Inference :

Le LoRA doit avoir été entraîné à l’aide de l’un des modèles listés dans la section Modèles de base pris en charge.
Le LoRA doit être enregistré au format PEFT en tant qu’artifact de type lora dans votre compte W&B.
Le LoRA doit être stocké dans storage_region="coreweave-us" pour garantir une faible latence.
Lors de l’importation, indiquez le nom du modèle de base sur lequel il a été entraîné (par exemple, meta-llama/Llama-3.1-8B-Instruct). Cela garantit que W&B peut le charger avec le bon modèle.

Une fois votre LoRA ajouté à votre projet en tant qu’artifact, utilisez l’URI de l’artifact dans vos appels d’inférence, comme ceci :

# Une fois l'entraînement terminé, utilisez votre artifact directement
model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/your_trained_lora:latest"

Modèles de base pris en charge

Inférence prend actuellement en charge les LLM suivants (utilisez exactement les chaînes indiquées dans wandb.base_model). D’autres modèles arriveront bientôt :

ID du modèle (pour une utilisation via l’API)	Rang LoRA maximal
`meta-llama/Llama-3.1-70B-Instruct`	16
`meta-llama/Llama-3.1-8B-Instruct`	16
`openai/gpt-oss-120b`	64
`OpenPipe/Qwen3-14B-Instruct`	16
`Qwen/Qwen3-30B-A3B-Instruct-2507`	16

Tarification

L’inférence LoRA sans serveur est simple et économique : vous ne payez que le stockage et les inférences que vous exécutez réellement, au lieu de payer pour des serveurs toujours actifs ou des instances GPU dédiées.

Stockage - Le stockage des poids LoRA est peu coûteux, surtout comparé au coût d’exploitation de votre propre infrastructure GPU.
Utilisation de l’inférence - Les appels qui utilisent des Artifacts LoRA sont facturés aux mêmes tarifs que l’inférence de modèle standard. Il n’y a pas de frais supplémentaires pour mettre en service des LoRA personnalisés.

Paramètres de réponse

Tutoriels

Référence de l’API

Pourquoi utiliser W&B Inference pour les LoRAs ?

Flux de travail

Prérequis

Comment ajouter des LoRA et les utiliser

Exigences clés

Modèles de base pris en charge

Tarification

Paramètres de réponse

Tutoriels

Référence de l’API

​Pourquoi utiliser W&B Inference pour les LoRAs ?

​Flux de travail

​Prérequis

​Comment ajouter des LoRA et les utiliser

​Exigences clés

​Modèles de base pris en charge

​Tarification

Pourquoi utiliser W&B Inference pour les LoRAs ?

Flux de travail

Prérequis

Comment ajouter des LoRA et les utiliser

Exigences clés

Modèles de base pris en charge

Tarification