新しいChat Completionを作成します。
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
ユーザーが送信したメッセージにかかわらず、モデルが従うべき開発者指定の指示です。o1 モデル以降では、developer メッセージが従来の system メッセージに置き換わります。
-9223372036854776000 <= x <= 9223372036854776000"none"low, medium, high -1 <= x <= 9223372036854776000true の場合、同じロールに属していれば、新しいメッセージは直前のメッセージの前に追加されます。
true の場合、生成プロンプトが chat template に追加されます。これは、モデルの tokenizer 設定内の chat template で使用されるパラメーターです。
これが設定されている場合、チャットは末尾のメッセージが EOS トークンなしの未完了の状態になるように整形されます。モデルは新しいメッセージを開始するのではなく、そのメッセージの続きを生成します。これにより、モデルの応答の一部を事前に埋めておくことができます。add_generation_prompt とは同時に使用できません。
true の場合、chat template によって追加されるものに加えて、特殊トークン(例: BOS)もプロンプトに追加されます。ほとんどのモデルでは、特殊トークンの追加は chat template が処理するため、これは false に設定する必要があります(デフォルト値も false です)。
モデルが RAG(検索拡張生成)を実行する場合にアクセスできるドキュメントを表す dict のリストです。テンプレートが RAG をサポートしていない場合、この引数は効果を持ちません。各ドキュメントは、"title" キーと "text" キーを含む dict にすることを推奨します。
この変換に使用する Jinja テンプレートです。transformers v4.44 以降ではデフォルトの chat template は使用できないため、tokenizer で chat template が定義されていない場合は、chat template を指定する必要があります。
テンプレート renderer に渡す追加のキーワード引数です。chat template からアクセスできます。
HF processor に渡す追加の kwargs です。
structured outputs 用の追加の kwargs です。
リクエストの優先度です(値が小さいほど先に処理されます。デフォルト: 0)。Serve されたモデルが優先度スケジューリングを使用していない場合、0 以外の優先度を指定するとエラーになります。
このリクエストに関連する request_id です。呼び出し元が設定しない場合は、random_uuid が生成されます。この ID は Inference プロセス全体を通じて使用され、Response で返されます。
サンプリング時に適用する logits processor の完全修飾名、またはコンストラクター object の list です。コンストラクターは JSON object で、プロセッサークラスまたはファクトリーの完全修飾名を指定する必須の 'qualname' フィールドと、位置引数およびキーワード引数を含む省略可能な 'args' フィールドと 'kwargs' フィールドを持ちます。例: {'qualname': 'my_module.MyLogitsProcessor', 'args': [1, 2], 'kwargs': {'param': 'value'}}。
'logprobs' を指定した場合、JSON にエンコードできない token を識別できるよう、token は 'token_id:{token_id}' 形式の文字列として表されます。
指定した場合、結果には生成されたテキストに加えて token ID も含まれます。ストリーミングモードでは、prompt_token_ids は最初の chunk にのみ含まれ、token_ids には各 chunk の差分 token が含まれます。これはデバッグ時や、生成テキストを入力 token に対応付ける必要がある場合に役立ちます。
指定した場合、複数ユーザー環境で攻撃者がプロンプトを推測することを防ぐため、prefix cache に指定した文字列でソルトを追加します。ソルトはランダムで、第三者が access できないよう保護され、かつ予測不能であるのに十分な長さである必要があります(例: 256 bit に相当する、base64 エンコードで 43 文字)。
分離サービングに使用される KVTransfer パラメーター。
custom 拡張機能で使用される、文字列または数値の値(またはその list)からなる追加の request パラメーター。
正常なレスポンス
"chat.completion"auto, default, flex, scale, priority KVTransfer パラメーター。