W&B Training

Désormais en préversion publique, W&B Training propose un post-entraînement serverless pour les grands modèles de langage (LLM), y compris l’apprentissage par renforcement (RL) et le Fine-tuning supervisé (SFT).

Serverless RL : améliorez la fiabilité des modèles sur des tâches agentiques à plusieurs tours, tout en augmentant la vitesse et en réduisant les coûts. Le RL est une technique d’entraînement dans laquelle les modèles apprennent à améliorer leur comportement grâce aux retours sur leurs résultats.
Serverless SFT : effectuez le Fine-tuning des modèles à l’aide de jeux de données sélectionnés pour la distillation, l’apprentissage du style et du format de sortie, ou la préparation avant le RL.

W&B Training s’intègre à :

ART, un framework flexible de Fine-tuning.
RULER, un vérificateur universel.
Un backend entièrement géré sur CoreWeave Cloud.

Pour commencer, remplissez les prérequis nécessaires à l’utilisation du service, puis consultez le démarrage rapide Serverless RL ou la documentation Serverless SFT pour apprendre à effectuer le post-entraînement de vos modèles.

Prérequis

⌘I

RL sans serveur

SFT sans serveur

Référence de l’API