# task-1576.1 완료 보고서: 인슈위키 위키 v2 파이프라인 3월 데이터 실행

**S**: task-1575.1에서 LLM 호출을 Claude CLI로 전환한 v2 파이프라인이 완료되었으며, 전체 32,946줄 데이터 실행 전 품질 검증을 위해 2026년 3월 데이터(9,916줄)를 대상으로 LLM 모드 파이프라인을 실행해야 한다.

**C**: 3월 데이터 9,916줄에서 2,127개 메시지, 255명 고유 사용자가 파싱되며, LLM 모드 실행 시 스레드별 haiku(필터)+sonnet(추출) 2단계 호출이 필요하여 약 71분의 처리 시간이 소요된다. 또한 Stage 2에서 LLM이 JSON 배열을 반환하는 파싱 실패가 18건(19%) 발생했다.

**Q**: v2 파이프라인 LLM 모드의 3월 데이터 품질이 대시보드 반영에 충분한가?

**A**: 94건 인사이트 추출 완료, 대시보드 반영 및 API 검증 성공. 규칙 기반 171건 대비 45% 감소(노이즈 필터링 효과). LLM 처리 엔트리는 높은 품질(전문적 제목, 구조화된 Q&A)을 보이며, "기타" 카테고리 0건 달성. Stage 2 LLM 파싱 실패 18건은 규칙 기반 폴백으로 정상 처리되었으나, 향후 `_parse_json_response`에서 list 타입 응답 처리 로직 추가 필요.

## 실행 결과 요약

### 파이프라인 실행
- 입력: `/tmp/kakao-march-2026.txt` (9,916줄)
- 파싱: 2,127 메시지, 255명 고유 사용자
- 스레드 분리: 171개 (규칙 기반) → 123개 (LLM 정제, 48개 병합)
- 배치: 7개 (batch_size=20)
- 총 소요 시간: 71분 (18:16:14 → 19:27:49)

### Stage 1 (Haiku 필터)
- 123개 스레드 중 94개 통과 (76.4%)
- 29개 노이즈 필터링 (23.6%)

### Stage 2 (Sonnet 추출)
- 94개 인사이트 최종 추출
- LLM 파싱 실패: 18건 (19.1%) — `'list' object has no attribute 'get'`
- 실패 원인: LLM이 JSON 객체 대신 배열을 반환
- 모든 실패 건은 규칙 기반 폴백으로 정상 처리

### 카테고리 분포 (94건)
- 고지의무: 28건 (29.8%)
- 보상/장기: 17건 (18.1%)
- 보상/일반: 14건 (14.9%)
- 약관해석: 10건 (10.6%)
- 상품비교: 9건 (9.6%)
- 언더라이팅: 6건 (6.4%)
- 보상/자동차: 4건 (4.3%)
- 의학지식: 3건 (3.2%)
- 영업노하우: 2건 (2.1%)
- 손해사정: 1건 (1.1%)
- 기타: 0건 (0%)

### 인사이트 유형 분포
- qa: 55건 (58.5%)
- practical_tip: 15건 (16.0%)
- regulation_interpretation: 8건 (8.5%)
- case_analysis: 8건 (8.5%)
- expert_opinion: 4건 (4.3%)
- regulation_change: 3건 (3.2%)
- warning: 1건 (1.1%)

### 품질 검증 (샘플 5건)

**LLM 처리 엔트리 (고품질):**
- 샘플 3: "보험 상품 비교표 작성 방법 및 실무 관행" — 카테고리 정확(영업노하우), Q&A 정제, 구조화된 키포인트
- 샘플 4: "고령자(70세~84세) 간병보험 가입 가능 여부 및 한도 비교" — 보험사별 비교 데이터 포함, 태그 6개
- 샘플 5: "간편보험 가입 시 '1년 뒤 추적관찰' 소견의 고지의무 해당 여부" — 신뢰도 high, 5개 상세 키포인트

**규칙 기반 폴백 엔트리 (저품질):**
- 샘플 1, 2: 원본 채팅 텍스트 미정제, 제목이 채팅 내용 그대로

### 대시보드 반영
1. `wiki_entries_march.json` → `wiki_entries.json` 복사 완료
2. wiki.db 초기화 후 94건 임포트 완료 (기존 645건 백업: `wiki.db.bak.pre-march`)
3. `systemctl --user restart dashboard.service` — active 확인
4. API 검증: `http://localhost:8000/api/wiki/entries` — 정상 응답 (50건/페이지)

## 생성/수정 파일

- `/home/jay/projects/insuwiki/scripts/kakao_knowledge/wiki_entries_march.json` (신규, 387KB, 94건)
- `/home/jay/projects/insuwiki/scripts/kakao_knowledge/wiki_entries.json` (수정, 387KB)
- `/home/jay/projects/insuwiki/scripts/kakao_knowledge/wiki_entries.json.bak.pre-march` (백업)
- `/home/jay/projects/insuwiki/data/wiki.db` (수정, 94건)
- `/home/jay/projects/insuwiki/data/wiki.db.bak.pre-march` (백업, 645건)

## 발견 이슈 및 해결

### 자체 해결 (3건)
1. **task-1575.1 워크트리 부재** — main 브랜치에서 직접 실행 (v2 코드 이미 머지됨)
2. **wiki.db ID 충돌** — 기존 DB 백업 후 초기화하여 재임포트 (기존 645건 → 94건)
3. **Python 출력 버퍼링** — 파이프 환경에서 로그 실시간 확인 불가. `ps` 명령으로 Claude CLI 프로세스 모니터링으로 대체

### 범위 외 미해결 (1건)
1. **Stage 2 LLM 파싱 실패 18건** — `_build_insight_from_llm`에서 LLM이 list를 반환하는 경우 처리 부재. `_parse_json_response`에 list → dict 변환 로직 추가 필요. 범위 외 사유: 코드 수정 작업이 아닌 파이프라인 실행 태스크

## 비교: 규칙 기반 vs LLM 모드

| 항목 | 규칙 기반 | LLM 모드 |
|------|-----------|----------|
| 스레드 수 | 171 | 123 (병합) |
| 인사이트 수 | 171 | 94 |
| "기타" 카테고리 | 31건 (18%) | 0건 (0%) |
| 노이즈 필터 | 0건 | 29건 |
| 실행 시간 | <1분 | 71분 |
| 품질 | 원본 텍스트 | 전문적 정제 |

## 셀프 QC 체크리스트
- [x] 1. 영향 파일: wiki_entries.json, wiki.db — 대시보드 데이터 갱신
- [x] 2. 엣지 케이스: LLM 파싱 실패 시 규칙 기반 폴백 정상 작동 확인
- [x] 3. 작업 지시와 일치: v2 파이프라인 LLM 모드 실행, 결과 검증, 대시보드 반영 완료
- [x] 4. 에러 처리: Stage 2 LLM 실패 18건 규칙 기반 폴백 처리
- [x] 5. 테스트: API 검증 통과 (50건 반환 확인)
- [x] 6. 이슈 해결: ID 충돌, 워크트리 부재 등 3건 자체 해결
- [x] 7. 코드 아키텍처: 코드 수정 없음 (파이프라인 실행만)
- [x] 8. 인터페이스 변경: 없음
- [x] 9. 이미지/배너: 해당 없음

## 머지 판단
- **머지 필요**: No (코드 수정 없음, 데이터 파이프라인 실행 결과만)
- **브랜치**: N/A
- **워크트리 경로**: N/A
- **머지 의견**: 코드 수정 없이 기존 v2 파이프라인으로 3월 데이터 처리 및 대시보드 반영 완료. 추가 머지 불필요.

## 모델 사용 기록
- 팀장 직접 수행 (파이프라인 실행/모니터링/검증) — 코딩 작업 없으므로 팀원 위임 불필요
- 파이프라인 내부 LLM: haiku (Stage 1 필터) + sonnet (Stage 2 추출) — Claude CLI 자동 호출