Modèles disponibles

W&B Inference donne accès à plusieurs modèles de fondation open source. Chaque modèle a ses propres points forts et cas d’utilisation.

Catalogue des modèles

Modèle	ID du modèle (pour l’utilisation de l’API)	Type	Fenêtre de contexte	Paramètres	Description
DeepSeek V3.1	`deepseek-ai/DeepSeek-V3.1`	Texte	161k	37B-671B (Active-Total)	Un grand modèle hybride qui prend en charge les modes avec et sans raisonnement via des templates de prompt.
Meta Llama 4 Scout	`meta-llama/Llama-4-Scout-17B-16E-Instruct`	Texte, vision	64k	17B-109B (actifs-total)	Modèle multimodal intégrant la compréhension du texte et des images, idéal pour les tâches visuelles et l’analyse combinée.
Meta Llama 3.3 70B	`meta-llama/Llama-3.3-70B-Instruct`	Texte	128k	70B (total)	Modèle multilingue qui excelle dans les tâches conversationnelles, le suivi précis des instructions et le codage.
Meta Llama 3.1 70B	`meta-llama/Llama-3.1-70B-Instruct`	Texte	128k	70B (total)	Modèle conversationnel performant optimisé pour des interactions réactives avec des chatbots multilingues.
Meta Llama 3.1 8B	`meta-llama/Llama-3.1-8B-Instruct`	Texte	128k	8B (au total)	Modèle conversationnel performant, optimisé pour des interactions réactives avec des chatbots multilingues.
Microsoft Phi 4 Mini 3.8B	`microsoft/Phi-4-mini-instruct`	Texte	128k	3.8B (Total)	Modèle compact et efficace, idéal pour fournir des réponses rapides dans des environnements aux ressources limitées.
MiniMax M2.5	`MiniMaxAI/MiniMax-M2.5`	Texte	197k	10B-230B (actifs-total)	Modèle MoE à l’architecture très clairsemée, conçu pour offrir un débit élevé et une faible latence, avec de solides capacités de programmation.
Moonshot AI Kimi K2.5	`moonshotai/Kimi-K2.5`	Texte, vision	262k	32B-1T (actifs-total)	Kimi K2.5 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.
NVIDIA Nemotron 3 Super 120B	`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8`	Texte	262k	12B-120B (actifs/total)	Nemotron 3 est un modèle LatentMoE conçu pour offrir de fortes capacités en matière d’agents, de raisonnement et de conversation.
OpenAI GPT OSS 120B	`openai/gpt-oss-120b`	Texte	131k	5.1B-117B (actifs-total)	Modèle Mixture-of-Experts efficace conçu pour les cas d’usage nécessitant un raisonnement poussé, des capacités agentiques et des usages généralistes.
OpenAI GPT OSS 20B	`openai/gpt-oss-20b`	Texte	131k	3.6B-20B (actifs-total)	Modèle Mixture-of-Experts à faible latence, entraîné sur le format de réponse Harmony d’OpenAI et doté de capacités de raisonnement.
OpenPipe Qwen3 14B Instruct	`OpenPipe/Qwen3-14B-Instruct`	Texte	32,8k	14,8 B (total)	Un modèle multilingue dense et performant, entraîné pour le suivi d’instructions, optimisé par OpenPipe pour créer des agents grâce au fine-tuning.
Qwen3 235B A22B Thinking-2507	`Qwen/Qwen3-235B-A22B-Thinking-2507`	Texte	262k	22B-235B (actifs au total)	Modèle Mixture-of-Experts haute performance optimisé pour le raisonnement structuré, les mathématiques et la génération longue.
Qwen3 235B A22B-2507	`Qwen/Qwen3-235B-A22B-Instruct-2507`	Texte	262k	22B-235B (actifs-total)	Modèle multilingue efficace de type Mixture-of-Experts, affiné sur des instructions et optimisé pour le raisonnement logique.
Qwen3 30B A3B	`Qwen/Qwen3-30B-A3B-Instruct-2507`	Texte	262k	3.3B-30.5B (actifs-total)	Qwen3-30B-A3B-Instruct-2507 est un modèle MoE de 30,5B ajusté par instruction, avec des capacités renforcées en raisonnement, en programmation et en compréhension de contextes longs.
Qwen3 Coder 480B A35B	`Qwen/Qwen3-Coder-480B-A35B-Instruct`	Texte	262k	35B-480B (actifs-total)	Modèle à mélange d’experts optimisé pour les tâches de programmation agentique, comme l’appel de fonctions, l’utilisation d’outils et le raisonnement en contexte long.
Qwen3.5 35B A3B	`Qwen/Qwen3.5-35B-A3B`	Texte, vision	262k	3B-35B (actifs-total)	Qwen3.5-35B-A3B est un modèle MoE multimodal à poids ouverts, conçu pour une inférence efficace et à haut débit pour le chat, le raisonnement et les tâches agentiques.
Z.AI GLM 5	`zai-org/GLM-5-FP8`	Texte	200k	40B-744B (Actifs-Total)	Modèle Mixture-of-Experts pour les tâches agentiques à long horizon, avec de solides performances en raisonnement et en programmation.

Utilisation des ID de modèle

Lorsque vous utilisez l’API, indiquez le modèle à l’aide de son ID du modèle figurant dans le tableau ci-dessus. Par exemple :

response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[...]
)

Étapes suivantes

Consultez les limites d’utilisation et la tarification pour chaque modèle
Consultez la référence de l’API pour savoir comment utiliser ces modèles
Essayez les modèles dans le W&B Playground

Paramètres de réponse

Tutoriels

Référence de l’API

Catalogue des modèles

Utilisation des ID de modèle

Étapes suivantes

Paramètres de réponse

Tutoriels

Référence de l’API

​Catalogue des modèles

​Utilisation des ID de modèle

​Étapes suivantes

Catalogue des modèles

Utilisation des ID de modèle

Étapes suivantes