# task-1542.1 완료 보고서: VS Code Continue + GLM-5.1 연동 가능 여부 실전 체크

## S - Situation
Z.ai 공식 챗에서 "Continue 확장 + OpenAI 호환 포맷으로 GLM 연동 가능"이라고 안내받아, GLM-5.1을 VS Code Continue에서 코딩 도우미로 사용할 수 있는지 실전 검증이 필요하다.

## C - Complication
GLM-5.1은 thinking 모델(reasoning_content 별도 반환)이며, 두 개의 엔드포인트(api.z.ai / open.bigmodel.cn) 중 어느 것이 동작하는지, Continue 자동완성에 적합한지 사전 검증 없이는 판단할 수 없다.

## Q - Question
VS Code Continue에서 GLM-5.1을 채팅/코드편집/자동완성 도우미로 실전 연동할 수 있는가?

## A - Answer
**채팅/코드편집: 연동 가능.** `api.z.ai` 엔드포인트 + OpenAI 호환 provider로 정상 동작 확인. 코드 생성 품질 우수 (최적화 소수 판별 알고리즘 정확 생성). **자동완성(Tab Autocomplete): 부적합.** 응답 15~25초로 실시간 자동완성(150ms 타임아웃 권장)에 부적합. 자동완성은 Codestral 등 경량 모델 별도 설정 권장.

---

## 체크 항목별 검증 결과

### 1. API 엔드포인트 확인

- **api.z.ai** (`https://api.z.ai/api/coding/paas/v4`): 모델 목록 조회 200 OK, chat completions 200 OK → **사용 가능**
- **open.bigmodel.cn** (`https://open.bigmodel.cn/api/paas/v4/`): 모델 목록 조회 200 OK, chat completions **429 에러** (잔액 부족 code:1113) → **크레딧 소진으로 사용 불가**
- 결론: 두 엔드포인트 모두 동일 Z.ai 서비스이나, 과금 체계가 분리되어 있음. 우리 API 키는 api.z.ai에서만 유효.

### 2. GLM-5.1 모델 ID 확인

- 모델 목록 조회 API에서 `glm-5.1` 정식 등재 확인 (owned_by: z-ai)
- 추가 확인된 모델: glm-4.5, glm-4.5-air, glm-4.6, glm-4.7, glm-5, glm-5-turbo
- 모델 ID는 정확히 `glm-5.1` (변형 불필요)

### 3. 실전 연동 테스트

- VS Code 미설치 → CLI curl 기반 테스트 수행
- **Hello 테스트** (api.z.ai): HTTP 200, 응답 12~15초, reasoning_content + content 정상 반환
- **코드 생성 테스트**: HTTP 200, 응답 24.87초, prompt 23토큰 → reasoning 466토큰 + content 104토큰 = 총 570토큰
- 생성된 코드: 6k 최적화 소수 판별 함수 (정확)

### 4. Continue 설정 파일

두 가지 형식으로 작성 완료:
- `teams/dev7/continue-config.json` (레거시 config.json)
- `teams/dev7/continue-config.yaml` (최신 config.yaml)
- API 키는 `YOUR_GLM_API_KEY` 플레이스홀더 (실사용 시 .env.keys 값으로 교체)
- timeout 120초, maxTokens 4096 설정

### 5. 한계/제약 확인

- **채팅(Chat)**: 가능. OpenAI 호환 /chat/completions 정상 동작
- **코드 편집(Edit)**: 가능. chat 기반으로 동작
- **자동완성(Autocomplete)**: **부적합**. 응답 15~25초 (권장 150ms). thinking 모델은 reasoning 오버헤드로 실시간 완성에 부적합. Codestral 등 경량 모델 별도 설정 권장
- **인라인 코드 제안**: 자동완성과 동일 제약
- **reasoning_content**: Continue가 OpenAI 호환 포맷의 reasoning_content를 별도 파싱하는지 미확인 (thinking 내용이 UI에 표시되지 않을 수 있음)
- **토큰 소비**: reasoning 토큰이 completion 토큰의 4~5배 소비됨. max_tokens 최소 1500 이상 필수 (권장 4096)

---

## 발견 이슈 및 해결

### 자체 해결 (2건)
1. **open.bigmodel.cn 엔드포인트 429 에러** — 크레딧 소진 상태 확인. api.z.ai 엔드포인트로 대체 사용 권고
2. **max_tokens 50~300에서 finish_reason: length** — thinking 모델 특성상 reasoning 토큰이 대부분 소비. max_tokens 1500+ 설정으로 해결

### 범위 외 미해결 (1건)
1. **Continue UI에서 reasoning_content 표시 여부** — VS Code 미설치 환경이므로 실제 UI 동작 확인 불가. VS Code 설치 환경에서 추가 검증 필요

---

## 산출물 파일

- `/home/jay/workspace/teams/dev7/continue-config.json`
- `/home/jay/workspace/teams/dev7/continue-config.yaml`
- `/home/jay/workspace/memory/reports/task-1542.1.md`

---

## 모델 사용 기록

- 팀원: 쿠쿨칸 / 작업 내용: API 엔드포인트 5종 curl 테스트 / 사용 모델: sonnet / 정당성: -
- 팀원: 이쉬첼 / 작업 내용: Continue 설정 파일 2개 작성 / 사용 모델: sonnet / 정당성: -

---

## 최종 결론

| 항목 | 결과 |
|------|------|
| 연동 가능 여부 | **채팅/편집: 가능** / 자동완성: 부적합 |
| 사용 엔드포인트 | `https://api.z.ai/api/coding/paas/v4` |
| 모델 ID | `glm-5.1` |
| 평균 응답시간 | 15~25초 (thinking 포함) |
| 코드 생성 품질 | 우수 (최적화 알고리즘 정확 생성) |
| 권장 max_tokens | 4096 |
| 권장 timeout | 120초 |