**task-932.1 완료 보고** (dev4-team) **완료 보고서: 자막 없는 유튜브 영상 내용 추출 + 요약** (15분 56초) **핵심 결과** 성공적으로 추출 완료. 2시간 16분 영상에서 3,849개 세그먼트(132KB 텍스트)를 추출했으며, 언어 감지 확률 100%로 한국어 인식. GPU float16 미지원으로 CPU+int8 모드(base 모델)로 fallback 실행. InsuWiki에는 이미 Whisper STT 폴백이 구현되어 있어 추가 통합 방안 3건 제안. **발견/해결 이슈 4건** 1. **GPU float16 미지원** — GTX 1060이 CUDA float16 compute를 완전히 지원하지 않아 실행 에러 발생 → CPU+int8(base 모델)로 자동 fallback 적용, 정상 변환 완료 2. **faster-whisper 설치 시 시스템 패키지 충돌** — `--break-system-packages` 옵션으로 해결 3. **Whisper segments 제너레이터 1회 소비 문제** — 리스트로 변환 후 파일 저장과 화면 출력을 분리 처리 4. **Whisper base 모델의 음성 인식 정확도 한계** — 미해결: 일부 전문용어(형태학적 분류, 배데스타 시스템 등)에서 오인식 발생. 범위 외 사유: small/medium 모델 사용 시 GPU VRAM 부족, 모델 업그레이드는 하드웨어 의존