본문 바로가기
Programming/AI&ML

[deepseek #준비] deepseek 로컬설치 모델 선택 #2

by BitSense 2025. 2. 1.

기본 설치 모델 선정:

시스템 : Windows11 Pro, CPU: i7 13th Gen. 2.10Ghz, 128GB RAM, RTX 4070 ti (22GB VRAM)
실행 윈도우 UI 앱 : LM Studio
설치 모델 : unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF

DeepSeek-R1-Distill-Llama-8B-GGUF 모델을 로컬에서 실행하기 위해서는, 시스템 사양과 요구 사항에 맞는 적절한 파일을 선택하는 것이 중요합니다. 해당 모델의 Hugging Face 페이지에서는 다양한 양자화 수준의 GGUF 파일을 제공합니다.

권장 파일 선택:

귀하의 시스템 사양(GeForce RTX 4070 Ti, 128GB RAM, 500GB SSD)을 고려할 때, 다음과 같은 파일을 선택하실 수 있습니다:

  • DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf: 이 파일은 Q4_K_M 양자화 수준으로, 성능과 메모리 사용량 간의 균형을 제공합니다.

실행 방법:

  1. llama.cpp 설치:
    • 최신 버전의 llama.cpp를 다운로드합니다.
    • 설치 및 컴파일 과정을 진행합니다.
  2. 모델 파일 준비:
    • 선택한 GGUF 파일을 다운로드하여 llama.cpp 디렉토리 내의 적절한 위치에 저장합니다.
  3. 모델 실행:
    • 터미널에서 다음 명령어를 실행하여 모델을 실행합니다:
    • ./llama.cpp/llama-cli \ --model 경로/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf \ --cache-type-k q8_0 \ --threads 16 \ --prompt '<|User|>1 더하기 1은?<|Assistant|>' \ -no-cnv
    • 위 명령어에서 경로 부분을 실제 파일 경로로 대체하시기 바랍니다.
  4. LM Studio 에서 설치

추가 고려사항:

  • GPU 레이어 오프로딩: 현재 시스템 GPU 메모리(12GB)를 고려하여, --n-gpu-layers 옵션을 사용하여 일부 레이어를 GPU로 오프로딩함으로써 성능을 향상시킬 수 있습니다.
  • 토큰 주의: 프롬프트에 <|User|><|Assistant|> 토큰을 포함하여 모델이 대화 형식을 인식하도록 해야 합니다.

자세한 내용은 Hugging Face의 모델 페이지를 참고하시기 바랍니다.

반응형