기본 설치 모델 선정:
시스템 : Windows11 Pro, CPU: i7 13th Gen. 2.10Ghz, 128GB RAM, RTX 4070 ti (22GB VRAM)
실행 윈도우 UI 앱 : LM Studio
설치 모델 : unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF
DeepSeek-R1-Distill-Llama-8B-GGUF 모델을 로컬에서 실행하기 위해서는, 시스템 사양과 요구 사항에 맞는 적절한 파일을 선택하는 것이 중요합니다. 해당 모델의 Hugging Face 페이지에서는 다양한 양자화 수준의 GGUF 파일을 제공합니다.
권장 파일 선택:
귀하의 시스템 사양(GeForce RTX 4070 Ti, 128GB RAM, 500GB SSD)을 고려할 때, 다음과 같은 파일을 선택하실 수 있습니다:
- DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf: 이 파일은 Q4_K_M 양자화 수준으로, 성능과 메모리 사용량 간의 균형을 제공합니다.
실행 방법:
- llama.cpp 설치:
- 최신 버전의
llama.cpp
를 다운로드합니다. - 설치 및 컴파일 과정을 진행합니다.
- 최신 버전의
- 모델 파일 준비:
- 선택한 GGUF 파일을 다운로드하여
llama.cpp
디렉토리 내의 적절한 위치에 저장합니다.
- 선택한 GGUF 파일을 다운로드하여
- 모델 실행:
- 터미널에서 다음 명령어를 실행하여 모델을 실행합니다:
./llama.cpp/llama-cli \ --model 경로/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf \ --cache-type-k q8_0 \ --threads 16 \ --prompt '<|User|>1 더하기 1은?<|Assistant|>' \ -no-cnv
- 위 명령어에서
경로
부분을 실제 파일 경로로 대체하시기 바랍니다.
- LM Studio 에서 설치
추가 고려사항:
- GPU 레이어 오프로딩: 현재 시스템 GPU 메모리(12GB)를 고려하여,
--n-gpu-layers
옵션을 사용하여 일부 레이어를 GPU로 오프로딩함으로써 성능을 향상시킬 수 있습니다. - 토큰 주의: 프롬프트에
<|User|>
및<|Assistant|>
토큰을 포함하여 모델이 대화 형식을 인식하도록 해야 합니다.
자세한 내용은 Hugging Face의 모델 페이지를 참고하시기 바랍니다.
반응형