# Cloudflare Browser Rendering /crawl + cf-crawl 스킬 — 심층 분석 및 장착 방안

## 작업 유형
리서치 + 분석 (코딩 아님)

## 배경
@unclejobs.ai Threads 게시물에서 Cloudflare Browser Rendering의 신규 /crawl 엔드포인트와 이를 Claude Code 스킬로 감싼 cf-crawl이 소개됨. 우리 시스템에 장착할 가치가 있는지 심층 분석 필요.

## 소스 정보
- Threads 게시물: https://www.threads.com/@unclejobs.ai/post/DVxN2A8iTE3
- cf-crawl 스킬 페이지: aitmpl.com (AI Templates)
- Cloudflare 공식: developers.cloudflare.com/browser-rendering/
- Cloudflare changelog: developers.cloudflare.com/changelog/

### 게시물 핵심 내용:
1. Cloudflare Browser Rendering API에 `/crawl` 엔드포인트 신규 추가
2. 단일 API 호출로 웹사이트 전체 크롤링 가능 (예: 29페이지 한 방)
3. Claude Code 스킬로 래핑: `npx claude-code-templates@latest --skill utilities/cf-crawl`
4. 사용: `/cf-crawl <URL> --limit 50`
5. Workers $5/월 → 600분 브라우저 시간 ≈ ~2만 페이지
6. RAG 파이프라인, 모델 학습 데이터 수집에 즉시 활용 가능
7. "kimi랑 결합하면 속도 장난아닐 것" (Kimi = Moonshot AI의 장문맥 모델)

## 분석 요청 사항

### 1. 기술 심층 분석
- Cloudflare Browser Rendering /crawl API의 정확한 스펙 조사
  - 입력 파라미터, 출력 형식 (Markdown? HTML? JSON?)
  - 인증 방식 (Workers 환경 필수? 외부 호출 가능?)
  - Rate limit, 제한사항
  - Free vs Paid 차이점 정확히
- cf-crawl Claude Code 스킬의 구조 분석
  - 어떤 방식으로 Cloudflare API를 호출하는지
  - 의존성, 요구사항
- 기존 우리 크롤링 시스템과의 비교:
  - 현재: Playwright 기반 browser.py + RSS crawler + YouTube crawler
  - cf-crawl 대비 장단점

### 2. 우리 시스템 적용 가능성 분석

아래 각 시스템/프로젝트별로 cf-crawl 또는 Cloudflare /crawl이 어떤 가치를 줄 수 있는지 구체적으로 분석:

#### 2-1. ThreadAuto (콘텐츠 자동화)
- 현재: RSS 뉴스 크롤링 → 보험/금융 뉴스 수집
- cf-crawl 적용 시: 더 많은 소스에서 더 깊은 크롤링 가능?
- 구체적 유즈케이스와 예상 효과

#### 2-2. InsuWiki (보험 지식 위키)
- 보험 관련 웹사이트 크롤링 → 지식 베이스 구축
- 약관, 상품 비교 데이터 수집
- 금감원/보험협회 등 공공 데이터 수집

#### 2-3. RAG 파이프라인 (미래)
- 보험 컨설팅 로직에 RAG 적용 시 데이터 수집 파이프라인
- 크롤링→청킹→임베딩→검색 파이프라인에서 cf-crawl의 위치

#### 2-4. 개발 인프라 (dev_workspace)
- 문서 크롤링: 라이브러리/API 문서를 한 번에 수집하여 팀에 제공
- 경쟁사 분석 도구

#### 2-5. Naver Pipeline / SEO (마케팅)
- 네이버 블로그, 경쟁 키워드 페이지 크롤링
- SEO 분석용 대량 페이지 수집

### 3. 비용-효과 분석
- Cloudflare Workers $5/월 → 600분 → ~2만 페이지
- 현재 우리가 쓰는 크롤링 비용 (Playwright 서버 리소스) 대비 비교
- ROI 판단

### 4. 리스크 분석
- Cloudflare 의존성 추가 리스크
- 크롤링 대상 사이트의 robots.txt / ToS 준수 이슈
- 데이터 품질: Markdown 변환 정확도
- 보안: API 키 관리, 크롤링 데이터 저장

### 5. "kimi 결합" 가능성
- Kimi (Moonshot AI): 200K 토큰 장문맥 모델
- cf-crawl로 대량 크롤링 → Kimi로 장문맥 분석?
- 우리 시스템에서는 Claude 사용 중 — Claude에서 동일한 효과를 낼 수 있는지?
- 멀티모델 전략 관점에서의 가치

### 6. 장착 로드맵 제안
- 우선순위: 가장 ROI 높은 적용처부터 순서대로
- 필요 작업량 추정 (각 적용처별)
- Phase별 구현 계획 제안
- 즉시 도입 vs 관망 판단

## 산출물
1. **분석 보고서**: `memory/reports/cf-crawl-analysis.md`
   - 기술 스펙 요약
   - 적용처별 가치 평가 (상/중/하)
   - 비용-효과 분석
   - 리스크 매트릭스
   - 장착 로드맵 제안
2. **리서치 기록**: `memory/research/INDEX.md`에 항목 추가

## 주의사항
- 이 작업은 **리서치/분석** 전용. 코드 작성 불필요.
- Cloudflare 공식 문서, cf-crawl 스킬 소스코드, 실제 벤치마크 데이터 등 **검증 가능한 출처**만 사용
- 추측이나 감으로 판단하지 말고, 데이터 기반으로 분석
- 우리 시스템의 현재 크롤링 코드를 반드시 읽고 비교 분석할 것:
  - `/home/jay/projects/ThreadAuto/crawler/rss_crawler.py`
  - `/home/jay/projects/ThreadAuto/crawler/youtube_crawler.py`
  - `/home/jay/workspace/scripts/browser.py`
