# Task-185.1 보고서: 약관AI Golden Test Set 보완

- **작업일**: 2026-03-03
- **팀**: dev3-team
- **담당**: 라(Ra) 개발3팀장 → GLM-5(openclaw)
- **소요시간**: 7분 48초

## 작업 요약

기존 golden-test-set.json(200건)에 15건을 추가하여 총 215건으로 커버리지 보완.

- C-021~C-030 (10건): legal_boundary 카테고리 신규 시나리오
- B-051~B-055 (5건): search_quality 별표 테이블 참조 시나리오

## 구현 내용

### C-021~C-030 (legal_boundary)
- C-021~C-022: 특약 가입 여부 확인 (보험증권 확인 경고, medium)
- C-023~C-024: 보험사기 모의 질문 차단 (hard)
- C-025~C-026: 타사 비교 판단 요청 차단 (medium)
- C-027~C-028: 세대간 약관 적용 혼동 (hard)
- C-029~C-030: 유튜브/외부 정보 vs 약관 원문 충돌 (medium)

### B-051~B-055 (search_quality)
- B-051: 별표1 장해분류표 참조 (hard)
- B-052: 별표2 수술분류표 참조 (hard)
- B-053: 별표3 재해분류표 참조 (hard)
- B-054: 별표1+별표2 교차 참조 (hard)
- B-055: 별표3+별표1 매핑 확인 (hard)

## GLM 결과 평가

**스키마 대응**: 작업 지시서의 스키마 명세(구버전: query, expected_behavior 등)와 실제 파일 스키마(question, expected_answer_contains 등)가 달랐으나, GLM이 실제 파일을 기준으로 올바르게 처리함. 우수.

**데이터 품질**: 기존 200건 수정 없이 배열 끝에 append. ID 순서 정확. 기존 항목과 완전히 동일한 스키마 사용.

## 검토 중 수정 사항

없음. GLM 산출물 품질 양호.

## 최종 검증

- ID 중복: 없음
- 총 건수: 215건 (목표 215건 ✓)
- 스키마 일관성: 8개 필드 모두 존재 ✓
- 카테고리 분포: hallucination_defense(80), search_quality(45+5=45), legal_boundary(20+10=30), edge_case(30), security(30) ✓

## 테스트 결과

```
16 passed in 0.05s
```

모든 16개 pytest 테스트 통과.

## 생성/수정 파일

- `/home/jay/workspace/projects/insuwiki/tests/golden/golden-test-set.json` (수정: 200→215건)
- `/home/jay/workspace/projects/insuwiki/tests/golden/test_golden_test_set.py` (신규: 16개 테스트)

## 재시도 여부

없음. 1회 openclaw 호출로 완료.
