# task-939.1: GPU vs CPU 작업 시 토큰 사용량 비교 분석 (한정위임)

## 배경
- task-932.2에서 GTX 1060 GPU Whisper 벤치마크 완료 (medium+int8: CPU 185초 → GPU 29초, 6.3배)
- task-938.1에서 토큰 추적 시스템 구축 중
- 제이회장님 질문: GPU로 작업할 때와 CPU로 작업할 때 토큰 사용량이 어떻게 다른지 분석 필요

## 분석 범위

### 1. 직접 비용 비교: 로컬 GPU Whisper vs OpenAI Whisper API
- **OpenAI Whisper API**: $0.006/분 (유료). 1시간 영상 = $0.36
- **로컬 GPU Whisper**: 전기료만 (GTX 1060 TDP 120W). 1시간 영상 → 약 6분 GPU 사용 = 약 0.012kWh ≈ 거의 무료
- 월간 InsuWiki 유튜브 크롤링 기준 예상 절감액 산출
  - 2개 채널, 6시간마다 크롤링, 자막 없는 영상 비율 추정
  - 연간 비용 비교

### 2. 간접 비용 비교: 작업 속도 → 토큰 소모 영향
- **가설**: GPU가 빠르면 → 작업 전체 소요 시간 감소 → 봇 세션 시간 단축 → LLM 토큰 소모 감소?
- 실제 측정 방법:
  - task-932.1 (CPU 모드) 세션의 총 토큰 소모량 확인
  - 동일 작업을 GPU로 했을 때의 예상 토큰 절감량 추정
  - JSONL 파일에서 해당 세션의 usage 데이터 추출

### 3. 시스템 전체 GPU 활용 현황 분석
- 현재 GPU를 사용하는 작업 목록:
  - Whisper STT (faster-whisper)
  - ODL hybrid 서버 (docling, 설치 예정)
  - 기타 AI 추론 작업
- GPU 사용 시간 vs 유휴 시간 분석
- GPU VRAM 사용량 패턴 (동시 실행 가능 작업 조합)

### 4. 비용 최적화 권장안
- GPU 상시 활용 전략 vs 필요 시에만 활용 전략
- GPU 작업 스케줄링 (Whisper + ODL + 기타 경합 시)
- VRAM 예산 분배 가이드 (6GB 중 어떻게 분배)

## 분석 방법

### 데이터 소스
1. **Claude Code JSONL 파일**: `/home/jay/.claude/projects/-home-jay-workspace/*.jsonl`
   - 각 메시지의 `usage` 필드: input_tokens, output_tokens, cache_creation_input_tokens, cache_read_input_tokens
   - task-932.1 세션 찾아서 분석

2. **task-timers.json**: `/home/jay/workspace/memory/task-timers.json`
   - 각 작업의 시작/종료 시간, 소요 시간

3. **벤치마크 데이터**: `/home/jay/workspace/teams/dev4/task-932.2/benchmark_results.json`
   - GPU/CPU 각 설정별 처리 시간

4. **시스템 GPU 정보**:
   - `nvidia-smi` — 현재 GPU 상태, 메모리, 프로세스
   - `/proc/driver/nvidia/gpus/` — GPU 사용 이력

### 산출물 형식
- 비교 분석 보고서 (`memory/reports/task-939.1.md`)
- 핵심 수치:
  - OpenAI API 비용 vs 로컬 GPU 비용 (월/연 기준)
  - CPU 작업 vs GPU 작업의 LLM 토큰 소모 차이 (있다면)
  - GPU 최적 활용 스케줄링 권장안
  - VRAM 예산 분배 가이드

## 주의사항
- 추정치에는 반드시 "추정" 표시 (fact_db에 없는 수치 생성 금지 원칙 준수)
- 실측 데이터가 있으면 실측 우선, 없으면 명확히 "추정값" 표기
- 결론은 실용적 권장안 중심 (학술 분석 아님)
