# 에이전트 미팅 Cycle 1: 크롤링 아키텍처 + 필터링
**작업**: task-1189.1 (ThreadAuto 뉴스 크롤링 → 인사이트 콘텐츠 ���이프라인 설계)
**일시**: 2026-03-28
**참석자**: 불칸(백엔드), 이리스(프론트), 아테나(UX/UI), 아르고스(QA), 로키(레드팀)

## 합의 사항

### 1. 크롤링 스택: requests+BS4 우선, 차단 시 Scrapling 전환
- Why 1: 기존 rss_fetcher.py가 BS4 기반이므로 동일 패턴으로 빠르게 구현 가능
- Why 2: 매일경제 보험 섹션은 정적 HTML 가능성이 높아 헤드리스 불필요
- Why 3: 단계적 전환 전략으로 실운영에서 대응 경로 명확

### 2. 크롤링 주기: 6시간 (00:00, 06:00, 12:00, 18:00 KST)
- Why 1: 보험 뉴스 소비 패턴과 freshness 균형
- Why 2: IP 차단 확률 최소화
- Why 3: 크롤링 실패 시 재시도 여유 확보

### 3. 저장 스키마: news_cache.json schema_version 2, 수집 범위 제목+URL+발행일+리드문 2문장
- Why 1: 본문 전체 저장은 저작권 리스크, 콘텐츠 생성에는 리드문으로 충분
- Why 2: 스키마 표준화로 기술 부채 방지
- Why 3: filtered_reason, ai_category_hint 필드 포함으로 QA·운영 모니터링 동시 해결

### 4. 필터링: 규칙 기반 1차 + LLM 보조 2차 (하이브리드)
- Why 1: 금감원 compliance_filter와 감사 추적 일관성
- Why 2: 특정 회사 페널티 키워드로 추가 모델 없이 1차 분류 가능
- Why 3: LLM 힌트는 경계값 의심 기사 표시로 제한, 파이프라인 오염 방지

### 5. 중복 제거: URL + 제목 Jaccard 유사도 0.85 병행
- Why 1: 보험저널 중복 수집 방지 (URL이 달라도 동일 기사 가능)
- Why 2: SNS 중복 포스팅은 브랜드 신뢰도 문제
- Why 3: difflib로 추가 의존성 없이 구현 가능

## 미결 → Cycle 2 이월
- 매일경제 robots.txt 법무 검토
- 특정 회사 페널티 키워드 목록 확정 (golden dataset 50건)
- LLM 분류 프롬프트 설계
- 매일경제 HTML 파싱 실증 테스트
- news_cache.json schema v2 명세 문서화
- 크롤링 실패 알림 메커니즘
