# task-1192.1 완료 보고: GLM 기능 테스트 — glm-call.py + OpenClaw 양쪽 검증

**팀**: dev4-team (비슈누)
**일시**: 2026-03-28

---

## SCQA

**S**: 8팀의 GLM 활용 방식이 OpenClaw → MCP → glm-call.py로 변천하여, 현재 glm-call.py(직접 z.ai API 호출)를 운영 중이며, OpenClaw 유료 계정도 등록 상태이다.

**C**: 두 방식 모두 실 환경에서 검증되지 않아 현재 상태(정상 작동 여부, 응답 품질, 비용 효율)가 불명확하다. glm-4.7-flashx 모델은 잔액 부족으로 사용 불가하며, OpenClaw는 명령어 구문이 직관적이지 않아 올바른 사용법 파악이 필요했다.

**Q**: glm-call.py vs OpenClaw 중 어느 방식이 더 안정적이고 효율적이며, OpenClaw 유료 계정의 추가 가치가 있는가?

**A**: **glm-call.py를 주 운영 도구로 유지하는 것을 권장한다.** glm-5(61.5초), glm-4.7-flash(13.7초) 모두 정상 작동하며, 모델 선택이 자유롭고 시스템 프롬프트 오버헤드가 없다. OpenClaw도 GLM-5 접근이 가능하나, 단순 쿼리에도 24,173 토큰(시스템 프롬프트 55,388자)을 소비하여 비용 비효율적이다. OpenClaw는 35개 스킬/24개 도구 등 부가 기능이 있으므로, 복합 자동화 필요 시에만 활용하는 보조 도구로 유지를 권장한다. glm-4.7-flashx 모델은 잔액 부족(API 에러 1113)으로 사용 불가하므로 충전이 필요하다.

---

## 테스트 결과 상세

### 1. glm-call.py 테스트

**테스트 1-1: glm-5 (피보나치 함수 생성)**
- 상태: SUCCESS
- 응답 시간: 61.493초
- 결과: 완전한 Python 함수 생성 (type hints, docstring, 에러 처리, 반복문 방식 O(n) 구현)
- 품질: 시간/공간 복잡도 분석까지 포함한 고품질 응답

**테스트 1-2: glm-4.7-flash (1+1=?)**
- 상태: SUCCESS
- 응답 시간: 13.670초
- 결과: 정확한 답변("2") + 산술 함수 코드 예제 제공
- 품질: glm-5 대비 4.5배 빠르면서 코딩 표준 준수

**테스트 1-3: glm-4.7-flashx (1+1=?)**
- 상태: FAILED
- 응답 시간: 13.232초 (재시도 포함)
- 에러: HTTP 429 — `{"error":{"code":"1113","message":"Insufficient balance or no resource package. Please recharge."}}`
- 재시도: 2회 자동 재시도 후 포기 (재시도 로직 정상 작동 확인)

### 2. OpenClaw 테스트

**버전**: 2026.2.25 (4b5d4a4)

**직접 쿼리 시도 (실패)**:
- `openclaw "1+1은 얼마인가요?" --provider glm --model glm-5` → `error: unknown command`
- `openclaw "1+1은 얼마인가요?" --model glm-5` → `error: unknown command`
- 원인: OpenClaw는 직접 쿼리 구문을 지원하지 않음

**agent 명령 시도 (성공)**:
- 명령: `openclaw agent --session-id test-glm-001 --message "1+1은 얼마인가요?" --json`
- 상태: SUCCESS
- 응답 시간: 12.788초 (내부 측정 10.977초)
- 응답: "2입니다."
- 토큰: 입력 19,676 + 출력 145 + 캐시읽기 4,352 = 총 24,173

**유료 계정 상태**: 활성 (zai 프로바이더, API 키 1개 구성됨)
**세션 오염**: 없음 (세션별 독립 격리 확인)

### 3. 비교 결론

**안정성**: 동등 — 양쪽 모두 glm-5 정상 접근 가능

**응답 속도**:
- glm-call.py glm-5: 61.5초 / glm-4.7-flash: 13.7초
- OpenClaw glm-5: 12.8초 (단, 시스템 프롬프트 오버헤드로 내부 처리 10.9초)
- 단순 비교 불가 — OpenClaw는 시스템 프롬프트(55,388자)가 추가되어 입력 토큰이 크게 증가

**토큰 효율성**:
- glm-call.py: 시스템 프롬프트 최소 (role별 200자 내외) → 비용 효율적
- OpenClaw: 시스템 프롬프트 55,388자 (프로젝트 컨텍스트 25,548 + 비프로젝트 29,840) → 단순 쿼리에도 24K+ 토큰 소비

**기능 범위**:
- glm-call.py: CLI 직접 호출, 모델 선택 자유 (glm-5, glm-4.7-flash 등), 단순하고 투명
- OpenClaw: 35개 스킬, 24개 도구, 세션 관리, 프롬프트 캐싱, 복합 자동화 가능

**사용 편의성**:
- glm-call.py: `--role --task --model` 3개 플래그로 즉시 사용 가능
- OpenClaw: `agent --session-id --message --json` 구문 필요, 직접 쿼리 불가

### 4. 권장 방식

1. **주 운영 도구**: glm-call.py 유지 — 비용 효율적, 모델 선택 자유, 사용 간편
2. **기본 모델**: glm-4.7-flash (속도-품질 균형, 13.7초)
3. **고품질 작업**: glm-5 (복잡한 코드 생성, 아키텍처 설계 시)
4. **OpenClaw**: 복합 자동화(세션 유지 대화, 다중 도구 활용) 필요 시 보조 도구로 활용
5. **조치 필요**: glm-4.7-flashx 모델 잔액 충전 (현재 사용 불가)

---

## 발견 이슈 및 해결

### 자체 해결 (1건)
1. **OpenClaw 직접 쿼리 구문 미지원** — `openclaw agent --session-id <ID> --message "<쿼리>" --json` 구문을 확인하여 정상 테스트 완료

### 범위 외 미해결 (2건)
1. **glm-4.7-flashx 잔액 부족** — 범위 외 사유: z.ai 계정 충전은 관리자(제이회장님) 권한
2. **OpenClaw 시스템 프롬프트 과다** — 범위 외 사유: OpenClaw 내부 설정 최적화는 별도 작업 필요

---

## 산출물

- `/home/jay/workspace/teams/dev4/glm-test-results.md`
- `/home/jay/workspace/teams/dev4/openclaw-test-results.md`
- `/home/jay/workspace/memory/reports/task-1192.1.md`

---

## 셀프 QC 체크리스트

- [x] 1. 다른 파일 영향: 없음 (테스트 전용 작업, 기존 코드 미수정)
- [x] 2. 엣지 케이스: glm-4.7-flashx 잔액 부족, OpenClaw 직접 쿼리 실패 — 모두 기록됨
- [x] 3. 작업 지시와 일치: 4개 테스트 항목 모두 수행, 비교 결론 및 권장 방식 제시
- [x] 4. 보안: API 키/토큰 마스킹 확인 (f5526ea9...9Q3z8hxx)
- [x] 5. 테스트 커버리지: glm-5, glm-4.7-flash, glm-4.7-flashx, OpenClaw 4건 모두 수행
- [x] 6. 이슈 해결: OpenClaw 구문 문제 자체 해결, 잔액 부족은 범위 외 명시
- [x] 7. 코드 아키텍처: N/A (코드 변경 없음)
- [x] 8. 인터페이스 문서: N/A (인터페이스 변경 없음)
