## 약관AI — 테스트셋 + 키워드 사전 구축 (3팀 대신 긴급 배정)

### 프로젝트 경로
/home/jay/projects/insuwiki/

### 산출물 경로
- /home/jay/projects/insuwiki/tests/golden/golden-test-set.json
- /home/jay/projects/insuwiki/data/dictionaries/clause-keywords.json
- /home/jay/projects/insuwiki/data/dictionaries/injection-patterns.json

### 작업 1: 골든 테스트셋 200건
tests/golden/golden-test-set.json

각 항목: {"id","category","question","expected_answer_contains","expected_answer_not_contains","source_article","risk_scenario","difficulty"}

카테고리별 배분:
- A. 할루시네이션 방어: 80건 (면책기간, 감액기간, 보장개시일, 납입면제, KCD코드, 비례보상, 실손세대, 장해분류)
- B. 검색 품질: 40건
- C. 법적 경계: 20건
- D. 엣지 케이스: 30건
- E. 보안: 30건

참고 시나리오 파일: /home/jay/workspace/memory/meetings/2026-03-03-scenarios-AB.md, scenarios-CDF.md, scenarios-E.md, scenarios-GHI.md

### 작업 2: 단서조항 키워드 사전
data/dictionaries/clause-keywords.json
- exception_keywords 30개+ ("다만", "단,", "그러나" 등)
- exclusion_keywords 20개+ ("면책", "부지급" 등)
- article_patterns 5종+ (정규식)
- insurance_generation_markers (gen1~gen4 특성)

### 작업 3: 인젝션 방어 키워드 사전
data/dictionaries/injection-patterns.json
- english_patterns, korean_patterns, false_positive_whitelist

### 주의사항
- 코드(ts, tsx) 수정 금지. json 파일만 생성.
- 디렉토리 없으면 mkdir -p로 생성.
- 보험 도메인 지식을 최대한 정확하게 반영.