# InforKeyword — 정보성 키워드 찾기 프로젝트 요구사항 v1

## 프로젝트 개요
- 경로: `/home/jay/projects/InfoKeyword/`
- 목적: 네이버에서 "정보성 키워드"를 자동으로 판별하는 웹앱
- 타겟: 지점 식구들 (보험설계사)
- 형태: 웹앱 (로그인 필요, 모바일 불필요)
- 기술 스택: 아누 판단 (미팅에서 결정)
- 참고 서비스: 없음 (신규 개발)

## 서비스 플로우

1. 사용자 **주제 입력** (예: "암보험")
2. **2단/3단 선택** 옵션 제공
3. AI(LLM)가 **키워드 30개 자동 생성**
   - 예: "암보험 비교", "암보험 추천 30대", "암보험 가격" ...
4. 사용자가 **5개 선택** → "분석하기" 클릭
5. 선택된 5개 키워드를 네이버에서 **7단계 자동 분석**
6. **상세 분석 리포트** 제공

## 정보성 키워드 판별 로직 (7단계 ALL PASS)

키워드를 네이버에서 검색했을 때, 아래 7개 조건을 **모두 통과**하면 "정보성 키워드"

### 1단계: 다단키워드
- 띄어쓰기 기준 단어 수가 2개 이상 (2단~4단)
- 1단 키워드 = 탈락

### 2~4단계 (OR 조건 — 하나만 충족하면 PASS)
- (2) 연관검색어가 있는 키워드 (네이버 검색 시 오른쪽 영역)
- (3) 자동완성어가 있는 키워드
- (4) 검색량이 20 이상인 키워드

### 5단계: 블로그탭 홍보성 비율
- **블로그탭 TOP10만 본문 상세 분석** (⚠️ "광고" 표시 결과 제외)
- 홍보성 글이 50% 이내여야 PASS
- 홍보성 판별 기준은 아래 별도 섹션 참조
- ⚠️ 카페글 본문은 분석하지 않음

### 6단계: 외부블로그 부재
- 블로그탭 기준 TOP10 (광고 제외)에 외부블로그가 없어야 PASS
- 외부블로그 = 티스토리, 블로그스팟, 워드프레스 등 (네이버블로그가 아닌 것)
- 외부블로그가 상위권에 노출되는 키워드 = 네이버에서 버린 키워드

### 7단계: 카페탭 대표뱃지
- 카페탭 검색 결과 TOP10에서 초록색 "대표" 등급 뱃지 **개수만 카운트**
- 5개 이하여야 PASS
- ⚠️ 카페 본문 진입 불필요, 검색 결과 목록에서 뱃지만 확인

---

## 홍보성 글 판별 기준

블로그 글이 아래 중 **하나라도 해당**되면 "홍보성 글"로 판정:

### i) 전화번호/주소 노출
- 이미지(사진/그림) 또는 텍스트 상관없이 전화번호 또는 주소가 있으면 홍보
- 이미지 속 전화번호/주소 감지: **Playwright 스크린샷 → 자체 LLM 이미지 분석** (별도 OCR 서비스 불필요)
- **예외**: 네이버 카페를 홍보하는 이미지는 OK
  - 예: "아프니까사장이다", "나만의보험비교" 언급 이미지

### ii) 외부링크 존재
- 네이버 외부로 나가는 링크 = 홍보성
  - 예: 보험비교 사이트, 다른 보험사 홈페이지
- **예외**:
  - a) 블로그 작성자의 블로그 내 다른 글로의 링크
  - b) 공익 사이트 (xxx.go.kr / xxx.or.kr 등 국가기관)

### iii) 네이버 관련 링크
- **홍보성**:
  - a) 네이버 톡톡 — 문의 전용 툴이므로 홍보
  - b) 네이버 플레이스 — 회사명 + 지도이동 가능한 플레이스 연동
- **예외 (홍보 아님)**:
  - a) 엑스퍼트 (expert.naver.com)

### iv) 첨부파일 존재
- 첨부파일이 안내문이든 홍보문서이든 무관
- 홍보 확률 존재 → 홍보로 판정

### v) 누가봐도 홍보
- AI(LLM)가 글 내용을 읽고 판단
- 설명 없이도 느낌이 오는 광고성 글

---

## 기술 결정 사항 (제이회장님 피드백, 2026-03-04)
- **LLM**: 외부 API 사용하지 않음. 자체 시스템(우리 인프라) 내에서 처리
- **OCR**: 별도 OCR 서비스(Cloud Vision 등) 사용하지 않음. Playwright 스크린샷 → 자체 LLM 멀티모달 분석
- **카페탭**: 본문 진입/분석 불필요. 검색 결과 목록에서 대표뱃지 개수만 카운트
- **블로그탭**: TOP10 본문만 상세 분석 (홍보성 판별)

---

## 기술 리서치 필요 항목

| # | 항목 | 비고 |
|---|------|------|
| 1 | 네이버 자동완성어 가져오는 방법 | API? 크롤링? |
| 2 | 네이버 검색광고 API 검색량 조회 | 비용 분석 필요 |
| 3 | 네이버 연관검색어 크롤링 | 검색 결과 우측 영역 |
| 4 | 네이버 블로그탭/카페탭 크롤링 | 구조 파악 |
| 5 | 이미지 OCR (전화번호/주소 감지) | 기술 + 비용 |
| 6 | InsuWiki 기존 API/KEY 활용 가능 여부 | 재사용 검토 |

---

## 참고
- InsuWiki에서 사용 중인 네이버 관련 API/KEY가 있으면 활용
- 비용 분석 포함하여 리서치
