새 Chat Completion을 생성합니다.
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
사용자가 보낸 메시지와 관계없이 모델이 따라야 하는 개발자 제공 지침입니다. o1 모델 및 이후 모델에서는 developer 메시지가 기존 system 메시지를 대체합니다.
-9223372036854776000 <= x <= 9223372036854776000"none"low, medium, high -1 <= x <= 9223372036854776000true이면 새 메시지가 마지막 메시지와 동일한 역할에 속할 경우, 마지막 메시지 앞에 추가됩니다.
true이면 생성 프롬프트가 채팅 템플릿에 추가됩니다. 이는 모델의 tokenizer 설정에 있는 채팅 템플릿에서 사용하는 매개변수입니다.
이 값을 설정하면 채팅이 마지막 메시지가 EOS 토큰 없이 열린 형태가 되도록 포맷됩니다. 모델은 새 메시지를 시작하는 대신 이 메시지를 이어서 생성합니다. 이를 통해 모델 응답의 일부를 "미리 채워 넣을" 수 있습니다. add_generation_prompt와 동시에 사용할 수 없습니다.
true이면 채팅 템플릿으로 추가되는 내용 외에도 특수 토큰(예: BOS)이 프롬프트에 추가됩니다. 대부분의 모델에서는 채팅 템플릿이 특수 토큰 추가를 처리하므로 false로 설정해야 합니다(기본값도 false).
모델이 RAG(검색 증강 생성)를 수행할 때 접근할 수 있는 문서를 나타내는 dict 목록입니다. 템플릿이 RAG를 지원하지 않으면 이 argument는 아무런 효과가 없습니다. 각 문서는 "title" 및 "text" 키를 포함하는 dict로 구성하는 것을 권장합니다.
이 변환에 사용할 Jinja 템플릿입니다. transformers v4.44부터는 기본 채팅 템플릿이 더 이상 허용되지 않으므로 tokenizer에 채팅 템플릿이 정의되어 있지 않다면 반드시 제공해야 합니다.
템플릿 렌더러에 전달할 추가 키워드 인수입니다. 채팅 템플릿에서 접근할 수 있습니다.
HF 프로세서에 전달할 추가 kwargs입니다.
구조화된 출력용 추가 kwargs입니다.
요청의 우선순위입니다(값이 낮을수록 더 먼저 처리되며, 기본값은 0). 서빙 중인 모델이 우선순위 스케줄링을 사용하지 않는 경우, 0이 아닌 우선순위를 지정하면 오류가 발생합니다.
이 요청과 관련된 request_id입니다. 호출자가 이를 설정하지 않으면 random_uuid가 생성됩니다. 이 ID는 Inference 과정 전반에서 사용되며 Response에 반환됩니다.
샘플링 시 적용할 logits processor의 정규화된 이름 목록 또는 생성자 객체 목록입니다. 생성자는 processor 클래스/팩토리의 정규화된 이름을 지정하는 필수 'qualname' 필드와, 위치 인수 및 키워드 인수를 담는 선택적 'args' 및 'kwargs' 필드를 포함하는 JSON 객체입니다. 예: {'qualname': 'my_module.MyLogitsProcessor', 'args': [1, 2], 'kwargs': {'param': 'value'}}.
'logprobs'와 함께 지정하면 JSON으로 인코딩할 수 없는 token을 식별할 수 있도록 token이 'token_id:{token_id}' 형식의 문자열로 표현됩니다.
지정하면 생성된 텍스트와 함께 token ID도 결과에 포함됩니다. 스트리밍 모드에서는 prompt_token_ids가 첫 번째 청크에만 포함되고, token_ids에는 각 청크의 delta token이 포함됩니다. 이는 디버깅하거나 생성된 텍스트를 입력 token에 다시 매핑해야 할 때 유용합니다.
지정하면 다중 사용자 환경에서 공격자가 프롬프트를 추측하지 못하도록 제공된 문자열을 사용해 prefix cache에 솔트를 추가합니다. 솔트는 무작위여야 하고, 제3자가 접근할 수 없도록 보호되어야 하며, 예측할 수 없을 만큼 충분히 길어야 합니다(예: 256비트에 해당하는 base64 인코딩 43자).
분리형 서빙에 사용되는 KVTransfer 매개변수입니다.
맞춤형 확장에서 사용하는 추가 요청 매개변수로, 문자열 값 또는 숫자 값(또는 그 목록)을 받습니다.
성공 응답
"chat.completion"auto, default, flex, scale, priority KVTransfer 매개변수입니다.