# MediScan 프로젝트 계획서

**상태**: draft
**작업 레벨**: Lv.4 (대규모 신규 프로젝트)
**작성일**: 2026-04-24
**최종 수정**: 2026-04-24

---

## 1. 프로젝트 정의

### 1.1 한 줄 정의
심평원/건보공단 PDF를 업로드하면 AI가 보험 고지의무 항목을 자동 분석하여 리포트를 생성하는 웹 기반 서비스

### 1.2 배경
- 보험 설계사가 고객의 병력 고지를 위해 심평원 진료정보, 건보공단 건강검진 결과를 수동으로 분석
- 현재 시장: MHS(Medical History Scanner) V9.7이 독점 — 월 33,000원, Windows 전용 데스크탑 앱
- 우리의 차별화: **웹 기반(모바일 포함) + InsuRo 통합 + AI 기반 분석 + 클라우드 저장**

### 1.3 최종 목표
InsuRo "분석 & 도구 > 메디스캔" 메뉴에 통합. 히든(가족) 플랜 전용 기능.

### 1.4 기술 스택 (확정 필요)
- **프론트엔드**: React + TypeScript (InsuRo 내장 페이지)
- **백엔드**: Python (FastAPI) — PDF 파싱 + 분석 엔진
- **DB**: Supabase (분석 결과, 이력 저장)
- **AI**: Claude Sonnet/Haiku (상병코드 해석, 질병예측)
- **배포**: InsuRo 서버 내 마이크로서비스 또는 Supabase Edge Function

---

## 2. MHS 경쟁 분석 (벤치마킹 완료)

### 2.1 MHS 사용자 워크플로우 (PDF 56p 기반)

```
[데이터 수집 단계]
1. 건보공단 → 건강검진 결과 PDF 저장 (1개 파일)
2. 심평원 → 기본진료내역 PDF (1개)
3. 심평원 → 세부진료정보 PDF (1개)
4. 심평원 → 처방조제정보 PDF (1개)
5. 심평원 → 자동차사고 기본진료정보 PDF (선택, 1개)
6. 심평원 → 자동차사고 세부진료정보 PDF (선택, 1개)
7. 심평원 → 내가 먹는 약! 한눈에 (투약정보, 1개)

→ 총 4~7개 PDF 파일

[분석 단계]
1. MHS 프로그램 실행 → 파일 추가 → 4~7개 PDF 첨부
2. 분석 시작 → 분석 모드 선택 (표준체/간편심사/질병예측)
3. 분석 완료 → 결과 저장 (HTML 리포트)
4. 리포트 열람 → 고지양식 복사 → 청약서 작성
```

### 2.2 MHS V9.7 핵심 기능 (릴리즈 노트 기반)

#### A. 분석 엔진 (Core)
| # | 기능 | 설명 | 우리 구현 우선순위 |
|---|------|------|----------------|
| A1 | 표준체 고지의무 동적 판별 | 3개월/1년/5년 기준 트리거 알고리즘 | ★★★ 필수 |
| A2 | 간편심사 맞춤 분석 | 플랜별 요구 기간 기반 입원/수술/재검사 판별 | ★★★ 필수 |
| A3 | 상병코드 정규화 | 주상병/부상병 식별, KCD 코드 매핑 | ★★★ 필수 |
| A4 | 누적 투약일수 산출 | 동일 상병 처방약품 누적일수 합산 | ★★★ 필수 |
| A5 | 진료일/입원일 교차검증 | 중복 제거, 실제 내원일·입원기간 산출 | ★★★ 필수 |
| A6 | 처방 의료기관 기반 분리 | 통원/입원/수술별 투약·진료 분리 | ★★ 높음 |
| A7 | 텍스트 표준화 | 양방/한방, 의료법인명 등 필터링 | ★★ 높음 |
| A8 | 수술 로직 최적화 | 수술 vs 단순처치/보조처치 분리 | ★★★ 필수 |
| A9 | 3개월 진료정보 매칭 | 진단명 확정/미확정 분류 | ★★ 높음 |
| A10 | 중대/특수치료 모듈 | 항암, 중재시술, 방사선, 체외충격파 | ★★★ 필수 |
| A11 | 수술 vs 중증/특수치료 분리 | 일반 수술과 중증/특수치료 구분 | ★★★ 필수 |
| A12 | 검사 오탐 방지 | ICT치료, 초음파치료 등 코드스캔 | ★★ 높음 |
| A13 | 7일 이상 치료 판별 | 동일원인 합산 로직 | ★★★ 필수 |
| A14 | 질병예측 분석 | 건강검진 기반 질병예측 레포트 | ★ 보통 (Phase 3) |

#### B. PDF 파싱
| # | 입력 소스 | 파일 형태 | 파싱 내용 |
|---|-----------|-----------|-----------|
| B1 | 심평원 기본진료내역 | PDF (웹 출력) | 진단일, 상병코드, 상병명, 의료기관, 진료유형 |
| B2 | 심평원 세부진료정보 | PDF (웹 출력) | 수술/처치 상세, 입원일수, 치료내역 |
| B3 | 심평원 처방조제정보 | PDF (웹 출력) | 약품명, 투약일수, 처방일, 의료기관 |
| B4 | 심평원 자동차사고 기본 | PDF (웹 출력) | 교통사고 관련 진료 내역 |
| B5 | 심평원 자동차사고 세부 | PDF (웹 출력) | 교통사고 수술/치료 상세 |
| B6 | 심평원 내가먹는약 | 엑셀/CSV | 투약 이력 1년분 |
| B7 | 건보공단 건강검진 | PDF (웹 출력) | 검진 항목, 수치, 판정 결과 |

#### C. 리포트 출력
| # | 기능 | 설명 |
|---|------|------|
| C1 | HTML 시각화 리포트 | 카드형, 아코디언 UI, 토글 상세 조회 |
| C2 | 고지양식 자동 생성 | 청약서 고지 문구 자동 작성 (복사 가능) |
| C3 | 고지 가이드라인 | 표준체/유병자별 기준 + 설계사 행동 요령 |
| C4 | 고위험 경고 | 항암/방사선 등 붉은색 Bold 강조 |
| C5 | 동일원인 합산 근거 토글 | 합산된 진단 그룹의 병원/기간/일수 표시 |
| C6 | 병원명 마스킹 | 중간 1~2자 * 처리 |
| C7 | 투약 포맷 개선 | [90일] 지르텍정 형태 |

---

## 3. 우리만의 차별화 (MHS 대비)

| 차별점 | MHS | MediScan |
|--------|-----|----------|
| 플랫폼 | Windows 전용 데스크탑 | **웹 기반 (모바일 포함)** |
| 데이터 처리 | 로컬 PC 내에서만 | **서버 처리 + 결과 클라우드 저장** |
| AI 활용 | 없음 (규칙 기반) | **AI 상병코드 해석 + 질병예측 + 자연어 설명** |
| 통합 | 독립 프로그램 | **InsuRo 생태계 통합 (콘텐츠 생성 연계)** |
| 가격 | 월 33,000원 | **InsuRo 히든 플랜 포함** |
| 이력 관리 | 없음 | **고객별 분석 이력 DB 저장** |
| 협업 | 불가 | **조직 내 분석 결과 공유** |

---

## 4. 구현 범위 (Phase 분리)

### Phase 1: 핵심 분석 엔진 (MVP)
**목표**: 기본진료내역 + 세부진료정보 + 처방조제정보 3개 PDF → 표준체 고지의무 리포트

| 항목 | 세부 |
|------|------|
| PDF 파싱 | B1(기본진료), B2(세부진료), B3(처방조제) |
| 분석 엔진 | A1(표준체 판별), A3(상병코드 정규화), A4(투약일수), A5(교차검증), A8(수술 분리), A10(중대치료), A13(7일 치료) |
| 리포트 | C1(HTML 리포트), C2(고지양식) 기본 버전 |
| 프론트 | 파일 업로드 UI, 분석 진행바, 결과 뷰어 |
| 백엔드 | FastAPI 분석 서버, Supabase 결과 저장 |

### Phase 2: 확장 분석
**목표**: 자동차사고, 건강검진, 간편심사 추가

| 항목 | 세부 |
|------|------|
| PDF 파싱 추가 | B4(자동차기본), B5(자동차세부), B6(투약정보), B7(건강검진) |
| 분석 엔진 추가 | A2(간편심사), A6(의료기관별 분리), A7(텍스트 표준화), A9(3개월 매칭), A11(수술/중증 분리), A12(오탐 방지) |
| 리포트 고도화 | C3(가이드라인), C4(고위험 경고), C5(합산 근거), C6(마스킹), C7(투약 포맷) |

### Phase 3: AI 고도화
**목표**: AI 기반 질병예측, 자연어 설명, 고객 이력 관리

| 항목 | 세부 |
|------|------|
| AI 분석 | A14(질병예측), 상병코드 자연어 해석, 위험도 점수화 |
| 고객 관리 | 분석 이력 DB, 고객별 타임라인, 변화 추이 |
| 협업 | 조직 내 분석 결과 공유, 코멘트 |
| 콘텐츠 연계 | 분석 결과 → 맞춤 보험 콘텐츠 자동 추천 |

---

## 5. 기술 아키텍처

### 5.1 시스템 구성도

```
[사용자 브라우저]
    ↓ PDF 업로드 (클라이언트 암호화)
[InsuRo 프론트엔드] (React)
    ↓ API 호출
[MediScan API 서버] (Python FastAPI)
    ├─ PDF 파서 모듈
    │   ├─ 기본진료내역 파서
    │   ├─ 세부진료정보 파서
    │   ├─ 처방조제정보 파서
    │   ├─ 자동차사고 파서
    │   ├─ 건강검진 파서
    │   └─ 투약정보 파서
    ├─ 분석 엔진
    │   ├─ 상병코드 정규화기
    │   ├─ 고지의무 판별기 (표준체/간편심사)
    │   ├─ 투약일수 산출기
    │   ├─ 진료일 교차검증기
    │   ├─ 수술/중증치료 분류기
    │   └─ 7일+ 치료 합산기
    ├─ AI 모듈
    │   ├─ 상병코드 해석 (Claude)
    │   └─ 질병예측 (Claude)
    └─ 리포트 생성기
        ├─ HTML 리포트
        └─ 고지양식 생성
    ↓ 결과 저장
[Supabase DB]
    ├─ analysis_results (분석 결과)
    ├─ analysis_files (업로드 파일 메타)
    └─ kcd_codes (상병코드 마스터)
```

### 5.2 데이터 보안 (★★★ 최우선)
- 의료 데이터는 **개인정보보호법 + 의료법** 적용 대상
- PDF 업로드 시 **TLS 전송 + 서버 측 AES-256 암호화**
- 분석 완료 후 원본 PDF **즉시 삭제** (결과만 보존)
- 분석 결과도 사용자 요청 시 완전 삭제 가능
- RLS 정책: 본인/조직 내 결과만 접근

### 5.3 PDF 파싱 기술
- **라이브러리**: pdfplumber (테이블 추출), PyMuPDF (텍스트), camelot (복잡한 테이블)
- **암호화 PDF 처리**: 비밀번호 입력 → qpdf 복호화 후 파싱
- **다중 파일 병렬 처리**: asyncio + multiprocessing

---

## 6. 필요 자료 (미확보 → 확보 계획)

| 자료 | 용도 | 확보 방법 | 우선순위 |
|------|------|-----------|---------|
| 심평원 PDF 샘플 (실제) | 파서 개발/테스트 | 제이회장님 or 테스트 계정 | ★★★ |
| 건보공단 건강검진 PDF 샘플 | 파서 개발/테스트 | 동일 | ★★★ |
| KCD 상병코드 전체 목록 | 코드 매핑 DB | 건보공단 공개 자료 다운로드 | ★★★ |
| 고지의무 기준표 (표준체) | 판별 규칙 | 보험사 약관/업계 표준 | ★★★ |
| 고지의무 기준표 (간편심사) | 판별 규칙 | 보험사별 간편심사 기준 수집 | ★★ |
| MHS 실제 출력 레포트 | 벤치마크 | 제이회장님 | ★★ |
| 6대질병 목록 | 진단이력 추출 | 업계 표준 정리 | ★★ |
| 수술/시술 코드 분류 기준 | 수술 로직 | 건강보험 수가 기준 | ★★ |

---

## 7. 위임 계획

| Phase | 예상 팀 | 내용 |
|-------|---------|------|
| Phase 1 설계 | 에이전트 미팅 | 아키텍처 확정, PDF 파싱 전략 |
| Phase 1 PDF 파서 | 개발팀 (백엔드) | Python PDF 파싱 모듈 |
| Phase 1 분석 엔진 | 개발팀 (백엔드) | 고지의무 판별 코어 로직 |
| Phase 1 프론트 | 개발팀 (프론트) | InsuRo 내 메디스캔 페이지 |
| Phase 1 통합 테스트 | composite-team | 전수 검증 |
| Phase 2~3 | 별도 계획 | Phase 1 완료 후 수립 |

---

## 8. 검증 기준

### Phase 1 완료 기준
1. 심평원 기본진료+세부진료+처방조제 3개 PDF 업로드 가능
2. 표준체(3개월/1년/5년) 고지의무 항목 정확히 분류
3. 상병코드 → 한글 진단명 매핑 정확도 95% 이상
4. 누적 투약일수 정확 산출
5. HTML 리포트 생성 + 고지양식 복사 가능
6. 전체 분석 소요 시간 30초 이내 (PDF 3개 기준)
7. 개인정보 암호화 + 원본 PDF 삭제 확인
