# task: 인포키워드 작업리포트 캡쳐 정확성 개선 — 블로그 정보성/카페 대표뱃지

## 배경
인포키워드 작업리포트의 스크린샷 캡쳐가 여전히 이상한 곳을 캡쳐하고 있다.
task-1013.1에서 URL 파라미터를 수정했으나, 실제 운영 결과 문제가 지속됨.
제이회장님 지적: "실제로 검증/판단 로직에 사용되는 URL에 접속해서 캡쳐할 수 있어야 함"

## 핵심 문제 2건

### 1. 블로그 탭 — 정보성 체크 과정 캡쳐
- 현재: screenshot.py가 블로그 탭 검색 결과를 캡쳐
- 문제: 정보성 체크 로직이 실제로 접근하는 URL과 캡쳐 URL이 다를 수 있음
- 수정: `worker/crawler/blog_search.py`에서 정보성 판단에 사용하는 실제 URL을 추적하여, 그 URL의 페이지를 캡쳐해야 함
- 정보성 체크의 실제 판단 과정이 보이도록 캡쳐 (검색 결과 페이지 + 판단 대상 블로그 포스트)

### 2. 카페 탭 — 대표뱃지 부분 캡쳐
- 현재: 카페 탭 검색 결과를 캡쳐
- 문제: 대표뱃지 확인에 사용하는 실제 URL과 캡쳐 URL이 다를 수 있음
- 수정: `worker/crawler/cafe_search.py`에서 대표뱃지 판단에 사용하는 실제 URL을 추적하여, 그 URL의 페이지를 캡쳐해야 함
- 대표뱃지가 보이는 영역이 캡쳐에 포함되어야 함

## 조사 포인트
1. `worker/crawler/blog_search.py` — 정보성 체크에서 실제 접근하는 URL 확인
2. `worker/crawler/cafe_search.py` — 대표뱃지 확인에서 실제 접근하는 URL 확인
3. `worker/reporter/screenshot.py` — 현재 캡쳐 URL과 위 URL 비교
4. `worker/pipeline/analyzer.py` — 캡쳐 호출 시점과 판단 로직 시점의 순서/타이밍 확인
5. task-925.1 보고서 참조: 5가지 근본 원인 분석 결과 확인
   - 광고 필터링 비대칭 (크롤러는 광고 필터, 스크린샷은 미필터)
   - HTTP 클라이언트 차이 (httpx vs Playwright)
   - 페이지 로딩 대기 부족
   - 병렬 실행 타이밍

## 수정 방향
- 캡쳐는 **판단 로직이 실제로 사용하는 URL**에 접속해서 수행
- 크롤러와 스크린샷이 같은 URL, 같은 타이밍, 같은 필터링 적용
- 가능하면 크롤링 완료 후 → 해당 URL로 캡쳐 (순차 실행)

## 프로젝트 경로
- /home/jay/projects/InfoKeyword/
- 프로젝트 맵: /home/jay/workspace/memory/project-maps/infokeyword.md (있으면 참조)

## 관련 이전 작업
- task-1013.1: screenshot URL 파라미터 수정 (부분 해결)
- task-925.1: 5가지 근본 원인 분석
- task-926.1: 3-Phase 개선 계획

## 산출물
- 수정된 screenshot.py, analyzer.py 등
- 수정 전/후 비교 가능한 테스트 실행 결과
- 실제 키워드로 테스트하여 캡쳐 정확성 검증