Telexed

telexed ~ home★4 이상 · 매시 갱신 · UTC+09LIVE

TELEXED// 1인 사업자 시그널 레이더 · 843호

AI 분야의 주요 소식 · 솔로 사업자에게 도움 되는 것만3 / 843

FILTER[전체][에이전트·도구][모델·API][생성형 미디어][인프라·SaaS][ASO·그로스][인디 비즈니스][아이디어 시그널][기타][★6+ high-signal]

r/LocalLLaMA ✕필터 해제

5월 23일 (토)1 dispatches

#0843
#0843에이전트·도구 r/LocalLLaMA지난주
`BeeLlama v0.2.0` 출시, `RTX 3090`에서 추론 속도 최대 **4.9배** 향상
BeeLlama v0.2.0 boosts inference speed by up to 4.9x on an RTX 3090
40radar
BeeLlama고성능 로컬 LLM 추론 엔진 — DFlash 기술로 토큰 생성 가속
DFlash 기술로 llama.cpp 대비 토큰 생성 속도를 최대 4.9배 높인 추론 엔진. RTX 3090급 GPU에서 로컬 LLM 활용도를 크게 높일 수 있어 주목할 만합니다.
- Qwen 3.6 27B 모델 기준, 단일 RTX 3090에서 초당 164 토큰을 생성합니다. 기존 llama.cpp의 37.2 tps 대비 4.4배 빠른 속도입니다.
- DFlash는 더 작은 드래프트 모델로 추론을 가속하는 기법. 프롬프트 처리 속도는 비슷하나, 토큰 생성에서 큰 폭의 성능 향상을 보입니다.
- 이번 업데이트로 Gemma 4 31B 모델을 완벽히 지원하며, GGUF 포맷과 호환되어 기존 로컬 LLM 생태계와 연동이 쉽습니다.
- 클라우드 API 비용 없이, 보유한 GPU로 빠른 프로토타이핑이나 소규모 서비스 운영이 더 현실적이 됩니다. 특히 긴 텍스트 생성 작업에서 유리합니다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tkpz2y/beellama_v0원문 보기 →
40radar
PHOTO
FIG-8431:1

5월 19일 (화)1 dispatches

#0842
#0842에이전트·도구 r/LocalLLaMA2주 전
에이전트 셸 실행, `rm -rf /`까지 테스트한 사고
Agent Shell Access Hit the `rm -rf /` Failure Mode
40radar
명령 화이트리스트를 검증하던 에이전트가 실제로 rm -rf /를 날렸다. 셸 권한을 주는 순간 샌드박스가 1순위이며, bwrap 같은 격리 없이는 위험 대비가 안 된다.
- 화이트리스트가 막아서 실제 피해는 0이었다. 그래도 에이전트가 위험 명령을 직접 시도했다는 점이 더 중요함.
- bubblewrap 격리는 화이트리스트 구현 뒤에 붙었다. 셸 실행 권한을 줄 때는 이 순서가 반대여야 한다.
- 명령 허용 목록은 2차 방어선이다. 파일시스템 격리, 임시 워크스페이스, 권한 제한을 먼저 깔아야 한다.
출처: www.reddit.com/r/LocalLLaMA/comments/1thosnt/got_my_firs원문 보기 →
40radar
PHOTO
FIG-8421:1

5월 18일 (월)1 dispatches

#0841
#0841에이전트·도구 r/LocalLLaMA2주 전
`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 **87/100** 주장
`SmallCode` hits 87/100 coding-agent tasks with an active 4B model
50radar
SmallCode로컬 코딩 에이전트 — 작은 모델용 복합 툴 설계
작은 로컬 모델의 약점을 모델 교체가 아니라 툴 설계로 막는다. 벤치마크는 자체 수치지만, 에이전트 하네스 패턴은 바로 재사용할 만함.
- 복합 툴이 파일 탐색→읽기→수정→검증을 한 번에 묶는다. 작은 모델이 3회 이상 툴 호출에서 흐트러지는 문제를 줄이는 방식.
- 코드 작성 직후 컴파일·린트를 돌리고 오류를 다시 넣는다. 첫 시도 정확도보다 실패 복구 루프가 성능을 만든다.
- 같은 실패가 반복되면 큰 작업을 더 잘게 쪼갠다. “200줄 파일 수정”을 “45번째 줄 수정”으로 낮추는 식.
- OpenAI·Claude 키가 있으면 막힌 작업만 클라우드 모델로 넘긴다. 로컬 비용 절감과 완주율 사이의 타협안.
출처: www.reddit.com/r/LocalLLaMA/comments/1tgecrq/i_built_a_c원문 보기 →
FIG-8411:1
50radar
FIG-8411:1