# task-1966: GLM-5 HuggingFace 공개 모델 vs 현재 8팀 GLM 적용 심층 비교 분석

**팀**: dev3-team (다그다)
**작업일**: 2026-04-20
**레벨**: normal (리서치/분석 전용, 코드 수정 없음)

---

## SCQA

**S**: 현재 개발8팀(Ra)은 z.ai API(`https://api.z.ai/api/coding/paas/v4/chat/completions`)를 통해 glm-5(백엔드)와 glm-4.7-flash(프론트/UX/테스터)를 호출하여 코딩 작업을 수행하고 있다. HuggingFace에 zai-org/GLM-5 모델이 공개되어 있으며, 월간 다운로드 484,607건으로 활발히 사용되고 있다.

**C**: HuggingFace 공개 모델과 현재 8팀이 API로 호출하는 모델이 동일한지, 또는 버전/성능 차이가 있는지 불명확하다. GLM-5.1이 2026-04-07에 추가 공개되었고, 가격 체계도 변동이 있어 최적 구성 검토가 필요하다.

**Q**: 현재 8팀의 GLM 셋업을 변경하거나 업그레이드해야 할 이유가 있는가?

**A**: HuggingFace GLM-5와 API GLM-5는 동일 모델(744B MoE/40B active)이다. 현재 API 호출 방식이 비용 대비 최적이며, 즉각적인 변경 필요성은 낮다. 단, (1) GLM-5.1 업그레이드 검토, (2) glm-4.7-flash의 무료 티어 활용 확인, (3) 한국어 성능 한계 인식이 권고된다.

---

## 1. HuggingFace GLM-5 분석

### 1.1 모델 아키텍처

- **총 파라미터**: 744B (Sparse Mixture-of-Experts)
- **활성 파라미터**: 40B
- **텐서 타입**: BF16, F32
- **핵심 혁신**: DeepSeek Sparse Attention(DSA) — 장문 컨텍스트 유지하면서 배포 비용 절감
- **사전학습 토큰**: 28.5T (GLM-4.5의 23T 대비 24% 증가)
- **후학습**: "slime" — 비동기 RL 인프라
- **컨텍스트 윈도우**: 최대 200K 토큰 (SWE-bench 기준), 추론 시 131,072 토큰 생성 가능

### 1.2 벤치마크 성능

- HLE (Humanity's Last Exam): 30.5 (GPT-5.2: 35.4)
- HLE w/ Tools: 50.4 (Claude Opus 4.5: 43.4)
- AIME 2026 I: 92.7 (Claude Opus: 93.3)
- SWE-bench Verified: 77.8 (Claude Opus: 80.9)
- SWE-bench Multilingual: 73.3
- Terminal-Bench 2.0: 56.2/60.7
- BrowseComp: 62.0
- GPQA-Diamond: 86.0

### 1.3 라이선스 및 상업적 사용

- **라이선스**: MIT — 상업적 사용 완전 허용
- **GitHub**: github.com/zai-org/GLM-5

### 1.4 지원 언어

- 공식 지원: **영어, 중국어**
- 한국어: 명시적 지원 언급 없음, 다국어 벤치마크에서 간접 평가만 존재
- BrowseComp-Zh(중국어): 72.7

### 1.5 추론 요구사항

- **권장**: 8x GPU 텐서 병렬 (vLLM/SGLang)
- **GPU 메모리**: 85% utilization 권장
- **양자화**: 26개 양자화 모델 제공 (llama.cpp, LM Studio, Ollama 등)
- **지원 프레임워크**: vLLM(0.19.0+), SGLang(0.5.10+), KTransformers, Transformers, xLLM(Ascend NPU)

### 1.6 API 제공 여부

- z.ai API 플랫폼에서 제공 (https://docs.z.ai/guides/llm/glm-5)
- 채팅 인터페이스: https://chat.z.ai
- HuggingFace Inference Providers: Novita 등
- OpenRouter에서도 호출 가능

### 1.7 GLM-4 대비 변경점

- 총 파라미터: 355B → 744B (2.1x)
- 활성 파라미터: 32B → 40B (1.25x)
- 사전학습 데이터: 23T → 28.5T (24% 증가)
- 신규: DeepSeek Sparse Attention(DSA) 도입
- 신규: 비동기 RL 인프라 "slime"

---

## 2. 현재 8팀 GLM 셋업 분석

### 2.1 호출 구성

- **호출 스크립트**: `/home/jay/workspace/tools/glm-call.py`
- **API 엔드포인트**: `https://api.z.ai/api/coding/paas/v4/chat/completions`
- **인증**: GLM_API_KEY (`.env.keys` 파일 또는 환경변수)
- **프로토콜**: OpenAI 호환 Chat Completions API (비스트리밍)

### 2.2 모델 배정

- **아누비스(백엔드)**: glm-5 — 핵심 코딩 작업
- **호루스(프론트엔드)**: glm-4.7-flash — UI 코드
- **바스테트(UX/UI)**: glm-4.7-flash — 디자인 스펙/CSS
- **소베크(테스터)**: glm-4.7-flash — 테스트 코드

### 2.3 유효 모델 목록

`VALID_MODELS = ["glm-5", "glm-4.7", "glm-4.7-flash", "glm-4.7-flashx"]`

### 2.4 호출 파라미터

- max_tokens: 8,192 (기본값)
- 재시도: 최대 2회, 5초 간격
- 타임아웃: 120초
- 스트리밍: 비활성

### 2.5 팀장(라) 역할

- Claude Sonnet 4.6 모델로 동작
- 설계/분배/검토/통합만 수행, 직접 코딩 금지
- GLM 결과물 검토 후 수정 시에만 Edit/Write 허용

### 2.6 `.openclaw/` 디렉토리

- `workspace-state.json` 1개 파일만 존재
- 내용: 부트스트랩 시드 시간(2026-02-28), 온보딩 완료(2026-03-01)
- 특별한 설정 없음

---

## 3. 비교 분석

### A. 모델 동일성

**결론: HuggingFace GLM-5와 API GLM-5는 동일 모델이다.**

- 근거: (1) 둘 다 zai-org(Zhipu AI)에서 제공, (2) HuggingFace 모델 카드에서 API 문서(docs.z.ai)를 직접 링크, (3) 아키텍처(744B MoE/40B active)가 일치, (4) vLLM 배포 시 `--served-model-name glm-5`로 API와 동일 모델명 사용
- API는 Zhipu가 호스팅하는 추론 서버를 호출하는 것이고, HuggingFace 모델은 셀프호스팅용 가중치 파일

### B. glm-4.7-flash 모델

- HuggingFace에 `zai-org/GLM-4.7-Flash`로 공개되어 있음
- 30B급 모델로 성능과 효율의 균형을 맞춘 경량 모델
- **z.ai API 공식 가격표에서 "Free"**로 표시됨 — 입력/출력 모두 무료
- 코딩/에이전트 사용에 최적화

### C. 코딩 성능 비교

- GLM-5 SWE-bench Verified: 77.8% (Claude Opus 80.9%, GPT-5.2 유사)
- GLM-4.7 SWE-bench: 73.8%, HumanEval: 85.2%
- GLM-5.1 SWE-bench Pro: 58.4% (GPT-5.4: 57.7, Claude Opus 4.6: 57.3 — 1위)
- GLM-5는 오픈소스 모델 중 최고 수준의 코딩 성능

### D. 비용/성능 트레이드오프

**API 호출 비용 (z.ai 공식, 1M 토큰 기준)**

- glm-5: 입력 $1.0 / 출력 $3.2
- glm-4.7: 입력 $0.6 / 출력 $2.2
- glm-4.7-flash: **무료**
- glm-4.7-flashx: 입력 $0.07 / 출력 $0.4
- glm-5.1: 입력 $1.4 / 출력 $4.4

**셀프호스팅 비용 추정**

- GLM-5(744B): 최소 8x A100 80GB 또는 동급 — 월 $15,000+ (클라우드 기준)
- 셀프호스팅은 대규모 추론 볼륨이 아닌 한 비효율적
- 현재 API 호출이 비용 대비 최적

**현재 8팀 비용 구조**

- 백엔드(glm-5): 유료 ($1.0/$3.2 per 1M tokens)
- 프론트/UX/테스터(glm-4.7-flash): **무료** — 매우 효율적 구성
- 팀장(라): Claude Sonnet 4.6 — Anthropic 별도 과금

### E. 호출 방식 차이

- **현재(API)**: HTTP POST → OpenAI 호환 응답 → 즉시 결과 반환. 인프라 관리 불필요.
- **HuggingFace(셀프호스팅)**: 가중치 다운로드 → vLLM/SGLang 서버 구동 → 자체 API 호출. 인프라 구축/유지 필요.
- 현재 API 호출 방식이 관리 오버헤드 없이 최적

---

## 4. 업그레이드 권고 사항

### 4.1 현재 셋업 유지 (권고)

현재 구성은 합리적이며 즉각적인 변경 필요성이 낮다.

- glm-5(백엔드)는 오픈소스 최고 수준의 코딩 성능
- glm-4.7-flash(프론트/UX/테스터)는 무료이면서 적절한 성능
- API 호출 방식은 인프라 부담 없음

### 4.2 조건부 권고 (검토 필요)

1. **GLM-5.1 업그레이드 검토**: SWE-bench Pro에서 GLM-5.1이 58.4%로 글로벌 1위. CyberGym에서 68.7로 GLM-5 대비 ~20점 향상. 단, 가격이 40% 높음 ($1.4/$4.4). 코딩 품질이 핵심이라면 검토 가치 있음.

2. **glm-4.7-flashx 옵션**: glm-4.7-flash보다 성능이 높고 가격도 저렴($0.07/$0.4). `VALID_MODELS`에 이미 포함되어 있으므로 프론트/UX 작업에 시험 적용 가능.

3. **한국어 성능 한계 인식**: GLM-5는 영어/중국어 중심. 한국어 보험 도메인 작업에서 품질 이슈 가능성. 보험 용어/한국어 문서 작업 시 Claude 팀장(라)의 검토가 더 중요.

4. **max_tokens 확대 검토**: 현재 8,192로 제한. GLM-5는 131K 생성 가능. 대형 코드 생성 시 확대 고려.

### 4.3 불필요 (권고하지 않음)

- **셀프호스팅 전환**: 현재 사용량 기준 API가 비용 효율적. 월 수백만 토큰 이상 사용하지 않는 한 셀프호스팅은 비효율적.

---

## 5. 발견 이슈 및 해결

### 자체 해결 (0건)
(리서치 작업으로 코드 수정 없음)

### 범위 외 미해결 (3건)
1. **glm-call.py의 가격 차이**: 코드에서 API URL이 `/paas/v4/`인데 z.ai 공식 가격과 OpenRouter 가격이 상이 — 범위 외 사유: 실제 과금은 z.ai 계정에서 확인 필요
2. **glm-4.7-flash 무료 여부 실제 확인 필요**: z.ai 가격표에 Free로 표기되나, paas API에서도 동일한지 확인 필요 — 범위 외 사유: API 키로 실제 과금 테스트 필요
3. **GLM-5.1 VALID_MODELS 미포함**: 현재 `glm-call.py`에 glm-5.1이 유효 모델로 등록되지 않음 — 범위 외 사유: 코드 수정은 이 작업 범위 밖

---

## 6. 근거 자료 출처

- HuggingFace GLM-5 모델 카드: https://huggingface.co/zai-org/GLM-5
- z.ai 공식 가격표: https://docs.z.ai/guides/overview/pricing
- z.ai GLM-5 문서: https://docs.z.ai/guides/llm/glm-5
- GLM-5 논문: arxiv:2602.15763
- OpenRouter GLM-5: https://openrouter.ai/z-ai/glm-5
- OpenRouter GLM-4.7-Flash: https://openrouter.ai/z-ai/glm-4.7-flash
- GLM-5.1 리뷰: https://www.buildfastwithai.com/blogs/glm-5-1-open-source-review-2026
- glm-call.py 소스: `/home/jay/workspace/tools/glm-call.py`
- 8팀 GLM-WORKFLOW.md: `/home/jay/workspace/teams/dev8/GLM-WORKFLOW.md`
- 8팀 CLAUDE.md: `/home/jay/workspace/teams/dev8/CLAUDE.md`

---

## 7. 셀프 QC 체크리스트

- [x] 1. 다른 파일 영향: 없음 (리서치 작업, 코드 수정 없음)
- [x] 2. 엣지 케이스: 해당 없음
- [x] 3. 작업 지시 일치: 비교 분석표, 동일 모델 여부, 업그레이드 권고 포함
- [x] 4. 에러 처리/보안: 해당 없음 (리서치)
- [x] 5. 테스트 커버리지: 해당 없음 (리서치)
- [x] 6. 이슈 직접 해결: 범위 외 3건 사유 명시
- [x] 7. 코드 아키텍처 원칙: 해당 없음 (리서치)
- [x] 8. 인터페이스 변경 문서: 해당 없음
- [x] 13. L1 스모크테스트: 해당 없음 (코드 수정 없음)

## L1 스모크테스트 결과

- 서버 재시작: 해당없음 (리서치/분석 작업, 코드 수정 없음)
- API 응답 확인: 해당없음
- 스크린샷: 해당없음

## 모델 사용 기록

- 팀원: 다그다(팀장, 직접 수행) / 작업 내용: 리서치 및 분석 보고서 작성 / 사용 모델: opus / 정당성: 리서치/분석 작업은 팀장 직접 수행 (코딩 작업 아님)

## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회


## 세션 통계
- 총 도구 호출: 0회