Passer au contenu principal
LLM Evaluation Jobs est un framework de benchmarking conçu pour évaluer les performances d’un modèle LLM à l’aide d’une infrastructure gérée par CoreWeave. Choisissez parmi une suite complète de benchmarks d’évaluation de modèles modernes et conformes aux standards du secteur, puis consultez, analysez et partagez les résultats à l’aide de classements et de graphiques générés automatiquement dans W&B Models. LLM Evaluation Jobs élimine la complexité liée au déploiement et à la maintenance de l’infrastructure GPU.
Les jobs d’Évaluation LLM sont en Aperçu sur W&B Multi-tenant Cloud. Les ressources de calcul sont gratuites pendant la période d’aperçu. En savoir plus

Fonctionnement

Évaluez un point de contrôle du modèle ou un modèle hébergé compatible avec OpenAI, accessible au public, en quelques étapes :
  1. Configurez un job d’évaluation dans W&B Models. Définissez ses benchmarks et sa configuration, par exemple pour indiquer s’il doit générer un classement.
  2. Lancez le job d’évaluation.
  3. Consultez et analysez les résultats et le classement.
Chaque fois que vous lancez un job d’évaluation pour le même projet de destination, le classement du projet se met automatiquement à jour.
Exemple de classement d’un job d’évaluation

Étapes suivantes

Plus de détails

Tarification

LLM Evaluation Jobs évalue un point de contrôle du modèle ou une API hébergée à l’aide de benchmarks populaires sur une infrastructure de calcul CoreWeave entièrement gérée, sans aucune infrastructure à administrer. Vous ne payez que les ressources consommées, et non le temps d’inactivité. La tarification comporte deux composantes : le calcul et le stockage. Le calcul est gratuit pendant la préversion publique, et nous annoncerons les tarifs lors de la disponibilité générale. Les résultats stockés incluent des métriques et des traces pour chaque exemple, enregistrées dans les Runs de Models. Le stockage est facturé mensuellement en fonction du volume de données. Pendant la période de préversion, LLM Evaluation Jobs est disponible uniquement sur le Cloud mutualisé. Voir la page Tarification pour plus de détails.

Limites des jobs

Chaque job d’évaluation est soumis aux limites suivantes :
  • La taille maximale du modèle à évaluer est de 86 Go, contexte compris.
  • Chaque job est limité à deux GPU.

Prérequis

  • Pour évaluer un point de contrôle du modèle, les poids du modèle doivent être empaquetés dans un artifact compatible avec VLLM. Voir Exemple : préparer un modèle pour plus de détails et un exemple de code.
  • Pour évaluer un modèle compatible avec OpenAI, celui-ci doit être accessible via une URL publique, et un administrateur de l’organisation ou de l’équipe doit configurer un secret d’équipe avec la clé API nécessaire à l’authentification.
  • Certains benchmarks utilisent des modèles OpenAI pour la notation. Pour exécuter ces benchmarks, un administrateur de l’organisation ou de l’équipe doit configurer des secrets d’équipe avec les clés API requises. Voir le catalogue des benchmarks d’évaluation pour déterminer si un benchmark est concerné par cette exigence.
  • Certains benchmarks nécessitent l’accès à des jeux de données à accès restreint dans Hugging Face. Pour exécuter l’un de ces benchmarks, un administrateur de l’organisation ou de l’équipe doit demander l’accès au jeu de données à accès restreint dans Hugging Face, générer un jeton d’accès utilisateur Hugging Face et le configurer comme secret d’équipe. Voir le catalogue des benchmarks d’évaluation pour déterminer si un benchmark est concerné par cette exigence.
Pour plus de détails et d’instructions sur la façon de remplir ces prérequis, voir :