#0843
`Qwen3.6 27B` pure `Q4_K_M` GGUF, **16GB VRAM**에 적재
`Qwen3.6 27B` pure `Q4_K_M` GGUF fits in **16GB VRAM**
40radar
Qwen3.6오픈 LLM — 로컬 추론용 GGUF 생태계 활발
pure 양자화로 모델 전체를 소비자 GPU 메모리에 올리는 선택지가 생겼다. 로컬 에이전트 실험용으론 쓸 만하지만, 품질 손실과 벤치마크 부족은 감수해야 함.
Q4_K_M MTP는 15.4GB, non-MTP는 15.1GB. 비교 대상 GGUF가 16.5-18GB라 16GB 카드에선 차이가 큼.- MTP는 생성 40 tok/s 대신 프롬프트 처리 195 tok/s. non-MTP는 프롬프트 715 tok/s, 생성 24 tok/s로 반대 성향.
- PPL 델타는 MTP +0.1707, non-MTP +0.1051. Unsloth 양자화보다 손실이 커서 품질 우선 작업엔 애매하다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tkzk9e/qwen36_27b_원문 보기 →