Passer au contenu principal
Il arrive que les modèles mettent un certain temps à générer une réponse. Définir l’option stream sur true vous permet de recevoir la réponse sous forme d’un flux de fragments, afin d’afficher les résultats de manière incrémentielle au lieu d’attendre que la réponse complète soit générée. La sortie en streaming est prise en charge pour tous les modèles hébergés. Nous encourageons tout particulièrement son utilisation avec les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle réfléchit trop longtemps avant de commencer à produire une sortie.
import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="<your-api-key>",  # Créez une clé API sur https://wandb.ai/settings
)

stream = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Tell me a rambling joke"}
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices:
        print(chunk.choices[0].delta.content or "", end="", flush=True)
    else:
        print(chunk) # Afficher l'objet CompletionUsage