메인 콘텐츠로 건너뛰기

로컬 모델

많은 개발자들이 LLama-3, Mixtral, Gemma, Phi 등과 같은 오픈 소스 모델을 다운로드하여 로컬에서 실행합니다. 이러한 모델을 로컬에서 실행하는 방법은 여러 가지가 있으며, OpenAI SDK와 호환되기만 하면 Weave는 그중 일부를 기본적으로 지원합니다.

로컬 모델 함수를 @weave.op()으로 감싸기

weave.init('<your-project-name>')로 Weave를 초기화한 다음 LLM 호출을 weave.op()으로 감싸기만 하면, 어떤 LLM이든 직접 Weave와 손쉽게 통합할 수 있습니다. 자세한 내용은 tracing 가이드를 참고하세요.

OpenAI SDK 코드를 로컬 모델을 사용하도록 업데이트하기

OpenAI SDK 호환을 지원하는 모든 프레임워크와 서비스에서는 몇 가지 작은 변경만 해주면 됩니다. 가장 먼저, 그리고 가장 중요한 것은 openai.OpenAI()를 초기화할 때 base_url을 변경하는 것입니다.
client = openai.OpenAI(
    base_url="http://localhost:1234",
)
로컬 모델의 경우 api_key에는 아무 문자열이나 넣어도 되지만, 반드시 직접 지정해야 합니다. 그렇지 않으면 OpenAI가 환경 변수에서 키를 가져오려고 시도해 오류가 발생합니다.

OpenAI SDK를 지원하는 로컬 모델 러너

다음은 Hugging Face에서 모델을 다운로드해 로컬 컴퓨터에서 실행할 수 있으며, OpenAI SDK 호환성을 지원하는 앱 목록입니다.
  1. Nomic GPT4All - 설정에서 Local Server를 통해 지원 (FAQ)
  2. LMStudio - Local Server OpenAI SDK 지원 문서
  3. Ollama - OpenAI SDK에 대한 OpenAI 호환성
  4. llama-cpp-python Python 패키지를 통한 llama.cpp
  5. llamafile - http://localhost:8080/v1는 Llamafile 실행 시 OpenAI SDK를 자동으로 지원합니다