Telexed

telexed ~ home★4 이상 · 매시 갱신 · UTC+09LIVE

TELEXED// 1인 사업자 시그널 레이더 · 843호

AI 분야의 주요 소식 · 솔로 사업자에게 도움 되는 것만3 / 843

FILTER[전체][에이전트·도구][모델·API][생성형 미디어][인프라·SaaS][ASO·그로스][인디 비즈니스][아이디어 시그널][기타][★6+ high-signal]

r/LocalLLaMA ✕필터 해제

5월 23일 (토)1 dispatches

#0843
#0843기타 r/LocalLLaMA지난주
`Qwen3.6 27B` pure `Q4_K_M` GGUF, **16GB VRAM**에 적재
`Qwen3.6 27B` pure `Q4_K_M` GGUF fits in **16GB VRAM**
40radar
Qwen3.6오픈 LLM — 로컬 추론용 GGUF 생태계 활발
pure 양자화로 모델 전체를 소비자 GPU 메모리에 올리는 선택지가 생겼다. 로컬 에이전트 실험용으론 쓸 만하지만, 품질 손실과 벤치마크 부족은 감수해야 함.
- Q4_K_M MTP는 15.4GB, non-MTP는 15.1GB. 비교 대상 GGUF가 16.5-18GB라 16GB 카드에선 차이가 큼.
- MTP는 생성 40 tok/s 대신 프롬프트 처리 195 tok/s. non-MTP는 프롬프트 715 tok/s, 생성 24 tok/s로 반대 성향.
- PPL 델타는 MTP +0.1707, non-MTP +0.1051. Unsloth 양자화보다 손실이 커서 품질 우선 작업엔 애매하다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tkzk9e/qwen36_27b_원문 보기 →
40radar
PHOTO
FIG-8431:1

5월 21일 (목)1 dispatches

#0842
#0842기타 r/LocalLLaMA지난주
`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접
`ik_llama.cpp` pushes `Qwen3.6 35B A3B` near 110 tok/s on 12GB VRAM
40radar
ik_llama.cppllama.cpp 포크 — CPU 오프로딩·양자화 최적화 강화
MTP와 CPU 오프로딩 조합으로 컨슈머 GPU에서도 로컬 MoE가 대화형 속도까지 올라온다. 프라이빗 코딩·배치 작업엔 실험 가치 있음.
- 같은 IQ4_XS 양자화에서 일반 llama.cpp 평균은 89.76 tok/s, ik_llama.cpp 샘플은 105-110 tok/s대까지 올라감.
- 환경은 RTX 4070 Super 12GB, Ryzen 7 9700X, 48GB DDR5. VRAM보다 CPU 오프로딩 최적화가 체감 속도를 좌우한다.
- 실행 옵션은 --ctx-size 131072, q8 KV cache, draft-mtp 조합. 긴 컨텍스트 로컬 추론은 여전히 메모리 세팅 의존도가 큼.
- 구매 판단용 벤치마크보다는 튜닝 힌트에 가깝다. 커널·양자화·포크 버전 차이로 결과가 크게 흔들릴 수 있음.
출처: www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_wi원문 보기 →
40radar
PHOTO
FIG-8421:1

5월 17일 (일)1 dispatches

#0841
#0841기타 r/LocalLLaMA2주 전
`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원
`llama.cpp` fork enables quantized KV cache with tensor split
50radar
llama.cpp로컬 LLM 추론 엔진 — GGUF·CUDA 백엔드 지원
텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.
- Qwen3.5 27B Q4_K_M 생성 성능은 -sm tensor 적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.
- 핵심은 -ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다.
- 실사용 체감은 3060 12GB + 4070 Super 12GB 조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다.
- MoE 모델은 현재 -sm tensor 이슈가 있어 제외. Qwen 27B/9B 같은 dense 모델 테스트가 현실적이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_ll원문 보기 →
50radar
PHOTO
FIG-8411:1