# InsuWiki 유튜브 자막 추출 디버깅

## 목표
보험명의정닥터 채널은 원래 자막이 정상 추출되었으나, 현재 43개 영상 모두 자막 추출 실패(hasTranscript=false) 상태다. 원인을 찾고 수정하라.

## 배경
- 3팀 점검 보고서: `/home/jay/workspace/memory/reports/task-201.1.md`
- 크롤링 코드: `/home/jay/projects/insuwiki/functions/src/crawlYoutubeChannels.ts`
- Whisper STT: `/home/jay/projects/insuwiki/functions/src/whisperStt.ts`
- 현재 상태: 43개 영상 모두 hasTranscript=false, 자막 0%, Whisper도 미작동 (OPENAI_API_KEY 미설정)

## 파이프라인 흐름 (확인 완료)
```
fetchYouTubeTranscript(videoId)
  → YouTube 영상 HTML에서 captionTracks 정규식 파싱
  → 한국어 자막 선택
  → 서명된 URL로 json3 요청
  → 실패 시 whisperTranscribe(videoId) 폴백
  → 둘 다 실패 시 제목+설명만으로 요약
```

## 디버깅 해야 할 것

### 1. 보험명의정닥터 채널 실제 자막 유무 확인
- 보험명의정닥터 최신 영상 1~2개를 브라우저에서 직접 확인 (자막 버튼이 있는지)
- 또는 YouTube Data API로 해당 영상의 caption 정보 조회
- 채널 ID: UC1oBpjjwMp0WGBfdg-0a5qQ

### 2. captionTracks 파싱 디버깅
- 보험명의정닥터 영상 1개의 HTML을 직접 fetch해서 captionTracks가 있는지 확인
- 정규식 `/\"captionTracks\":\s*(\[[\s\S]*?\])/`가 매칭되는지
- YouTube HTML 구조가 변경되었을 가능성 확인

### 3. ins-king 채널 확인
- ins-king은 원래 자막이 없는 채널 → Whisper STT가 필요한 채널
- OPENAI_API_KEY가 없어서 실패하는 것이 정상 동작
- 하지만 실제로 자막이 있을 수도 있으니 같이 확인

### 4. 수정 (원인에 따라)
- 정규식 패턴 수정이 필요하면 수정
- OPENAI_API_KEY 설정은 이 작업 범위 밖 (제이회장님과 논의 필요)
- 수정 후 로컬에서 테스트 가능하면 테스트

## 프로젝트 경로
- `/home/jay/projects/insuwiki/`

## 산출물
- 보고서: `/home/jay/workspace/memory/reports/<task_id>.md`
  - 원인 분석 결과
  - 수정한 코드 (있으면)
  - OPENAI_API_KEY 설정 관련 권장 사항