stream sur true vous permet de recevoir la réponse sous forme d’un flux
de fragments, afin d’afficher les résultats de manière incrémentielle au lieu d’attendre que la
réponse complète soit générée.
La sortie en streaming est prise en charge pour tous les modèles hébergés. Nous encourageons tout particulièrement son
utilisation avec les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle réfléchit
trop longtemps avant de commencer à produire une sortie.
- Python
- Bash