Passer au contenu principal

Modèles locaux

De nombreux développeurs téléchargent et exécutent en local des modèles open source comme LLama-3, Mixtral, Gemma, Phi, entre autres. Il existe plusieurs façons de faire tourner ces modèles en local, et Weave en prend nativement en charge certaines, à condition qu’elles offrent une compatibilité du SDK OpenAI.

Décorez les fonctions de modèle local avec @weave.op()

Vous pouvez facilement intégrer vous-même Weave à n’importe quel LLM en initialisant simplement Weave avec weave.init('<your-project-name>'), puis en encapsulant les appels à vos LLM avec weave.op(). Voir notre guide sur le Tracing pour plus de détails.

Mise à jour de votre code OpenAI SDK pour utiliser des modèles locaux

Tous les frameworks de services compatibles avec le SDK OpenAI nécessitent quelques modifications mineures. La première, et la plus importante, concerne la modification de base_url lors de l’initialisation de openai.OpenAI().
client = openai.OpenAI(
    base_url="http://localhost:1234",
)
Dans le cas des modèles locaux, api_key peut être n’importe quelle chaîne, mais il doit être redéfini, sinon OpenAI essaiera de l’utiliser à partir des variables d’environnement et affichera une erreur.

Outils d’exécution de modèles locaux compatibles avec le SDK OpenAI

Voici une liste d’applications qui vous permettent de télécharger et d’exécuter des modèles depuis Hugging Face sur votre ordinateur, et qui offrent la compatibilité du SDK OpenAI.
  1. Nomic GPT4All - prise en charge via Local Server dans les paramètres (FAQ)
  2. LMStudio - prise en charge du SDK OpenAI via Local Server docs
  3. Ollama - compatibilité OpenAI pour le SDK OpenAI
  4. llama.cpp via le package Python llama-cpp-python
  5. llamafile - http://localhost:8080/v1 prend automatiquement en charge le SDK OpenAI lors de l’exécution de Llamafile