# AI 보이스 인터페이스 (AI Whispers) 도입 전략 회의

## 1. 개요
*   **일시**: 2026-02-16 02:25
*   **참석자**: PM, Backend, Frontend, Data, QA, UX, Legal, Planner, Reflect (9명 전원)
*   **주제**: "말로 하는 지식 관리" - 음성 인식(STT) 및 음성 명령 기반 AI 어시스턴트 구축

---

## 2. 에이전트별 주요 의견

### 🎙️ PM (Jay)
*   **관점**: 실제 현장(상담 중)에서의 사용성
*   **의견**: 보험 설계사는 상담 중 타이핑이 어렵습니다. "AI whispers" 기능을 통해 상담 내용을 실시간으로 듣고 요약하거나, 말로 "이 고객 약관 찾아줘"라고 시키는 것이 진정한 'Zero Friction'입니다.

### 🎨 Frontend Expert
*   **관점**: Web Audio API 및 실시간 UI
*   **의견**: 브라우저의 마이크 권한 제어와 실시간 음파 시각화(Visualizer) UI가 필요합니다. **Gemini Live API**를 사용하면 텍스트뿐만 아니라 오디오를 직접 스트리밍할 수 있어 응답 속도가 혁신적으로 빨라질 것입니다.

### ⚙️ Backend Expert
*   **관점**: 오디오 스트리밍 아키텍처
*   **의견**: 고용량 오디오 데이터를 서버로 보내는 것은 비용이 큽니다. 클라이언트에서 **VAD(Voice Activity Detection)**를 처리하여 무음 구간은 자르고 유효한 음성만 보내는 최적화가 필수적입니다. Whisper API 또는 Gemini Multimodal 능력을 활용하겠습니다.

### ✨ UX Expert
*   **관점**: 대화형 워크플로우
*   **의견**: 단순히 텍스트로 바꾸는 게 아니라, "방금 말한 부분 중요하니까 강조해줘" 같은 **음성 명령(Voice Commands)** 처리가 중요합니다. '워크키(Walkie-talkie)' 스타일의 UI를 제안합니다.

### 🆕 Reflect Expert
*   **관점**: Frictionless Recording
*   **의견**: 녹음 버튼을 누르는 것조차 'Friction'일 수 있습니다. 특정 단어(예: "인슈위키 들어봐")로 시작하는 **Wake-word** 감지 기능을 검토해야 합니다.

### ⚖️ Legal Expert
*   **관점**: 녹취 보안 및 동의
*   **의견**: 상담 녹음은 개인정보보호법상 민감합니다. "지금부터 AI가 상담 내용을 기록합니다"라는 안내 및 동의 절차를 UI에 반드시 포함해야 하며, 오디오 원본 데이터는 처리 즉시 파기하거나 암호화 저장해야 합니다.

---

## 3. 종합 결론 (Strategy Summary)

### 3.1. 핵심 모듈: **Gemini Multimodal Live**
*   단순 STT(Whisper)를 넘어, 음성의 톤과 뉘앙스까지 파악하는 Gemini의 오디오 멀티모달 능력을 사용하기로 함.

### 3.2. 주요 기능 시나리오
1.  **실시간 상담 요약**: 마이크를 켜둔 채 상담하면 실시간으로 문장이 생성되고 주요 키워드가 자동 태깅됨.
2.  **보이스 커맨드**: "방금 내용을 고객에게 카톡으로 보내줘", "이 보험 상품 비교표 그려줘" 등 말로 앱 제어.

### 3.3. 구현 난이도: **High**
*   실시간 오디오 스트리밍 처리 및 저지연(Low Latency) 환경 구축이 관건.

---

## 4. ACTION ITEMS
- [ ] [Research] Gemini Real-time Audio SDK 분석
- [ ] [UX] 상담 기록 중 방해되지 않는 음성 UI(Mini Player) 설계
- [ ] [Backend] 오디오 버퍼링 및 노이즈 캔슬링 알고리즘 검토