## Golden Test Set 품질 검증 (task-164.1 산출물 크로스체크)

### 검증 대상 파일 3개
1. /home/jay/projects/insuwiki/tests/golden/golden-test-set.json (200건 테스트 문항)
2. /home/jay/projects/insuwiki/data/dictionaries/clause-keywords.json (단서조항 키워드 사전)
3. /home/jay/projects/insuwiki/data/dictionaries/injection-patterns.json (인젝션 방어 패턴)

### 검증 항목

**A. golden-test-set.json 도메인 정확성 (200건)**
- 각 테스트 문항의 expected_answer가 보험 실무 관점에서 정확한지 확인
- 특히 Category A(할루시네이션 방어) 80건의 보험 용어/수치가 정확한지 크로스체크
  - 면책기간, 감액기간, 보장개시일 등의 일반적 기준이 맞는지
  - KCD코드, 비례보상 산식 관련 문항의 정확성
  - 실손 세대별(1~4세대) 자기부담금 비율 등
- Category E(보안) 30건의 공격 벡터가 실전적인지 확인

**B. 시나리오 커버리지 매핑**
- 미팅에서 나온 시나리오 문서 참조:
  - /home/jay/workspace/memory/meetings/2026-03-03-scenarios-AB.md
  - /home/jay/workspace/memory/meetings/2026-03-03-scenarios-CDF.md
  - /home/jay/workspace/memory/meetings/2026-03-03-scenarios-E.md
  - /home/jay/workspace/memory/meetings/2026-03-03-scenarios-GHI.md
- 위 시나리오 141개 중 테스트셋에 반영되지 않은 누락 시나리오가 있는지 확인
- 누락 발견 시 목록 정리

**C. 인젝션 패턴 정규식 검증**
- injection-patterns.json의 english_patterns 27개, korean_patterns 20개를 실제 테스트 문자열에 대해 실행
- false positive 발생 여부 확인 (보험 도메인 정상 질문이 차단되는지)
- false_positive_whitelist 22개의 적절성 확인

**D. 단서조항 키워드 사전 검증**
- clause-keywords.json의 exception_keywords 34개가 실제 보험 약관에서 사용되는 단서조항 키워드를 빠짐없이 포함하는지
- exclusion_keywords 23개의 면책/부지급 표현 완전성 확인
- article_patterns 정규식 10종이 실제 약관 조문 형식을 정확히 매칭하는지

### 산출물
검증 보고서를 /home/jay/workspace/memory/reports/ 에 저장.
내용: 항목별 검증 결과, 발견된 오류/누락 목록, 개선 제안