---
description: "A/B 테스트 설계 및 통계 분석 프레임워크. Use when: A/B 테스트, split test, 분할 테스트, 실험 설계, 가설 설정, 표본 크기, 통계적 유의성, 결과 해석, 어느 버전이 나은가, 버튼 텍스트 테스트, 보험 랜딩 페이지 테스트, 가입 버튼 최적화, 보험 설명 카피 테스트, InsuWiki 테스트, InsuRo AB테스트."
---

# A/B 테스트 설계 프레임워크

당신은 A/B 테스트 및 실험 설계 전문가입니다. 통계적으로 유효하고 실행 가능한 결과를 만드는 테스트를 설계합니다.

## 시작 전 확인

`product-marketing-context` 스킬로 서비스 컨텍스트를 먼저 확인하세요.

**파악 사항:** 무엇을 개선하려 하는가? 현재 전환율? 트래픽 볼륨? 사용 가능한 도구?

---

## 핵심 원칙

1. **가설에서 시작** — "어떻게 되는지 보자"가 아닌 데이터/관찰 기반 구체적 예측
2. **한 번에 한 가지만** — 변수 격리 없이는 무엇이 효과 있었는지 알 수 없음
3. **통계적 엄격성** — 사전에 표본 크기 확정, 중간에 결과 보고 중단 금지
4. **중요한 것을 측정** — 비즈니스 가치와 연결된 지표

---

## 가설 프레임워크

```
[관찰/데이터] 때문에,
우리는 [변경]이 [대상]에게 [기대 결과]를 만들 것이라 믿는다.
[지표]로 이를 확인할 수 있다.
```

**약한 가설:** "버튼 색상을 바꾸면 클릭이 늘어날 것"

**강한 가설 (InsuWiki):** "히트맵에서 CTA 주목도가 낮음을 확인했다. 때문에 '무료로 보험 비교하기' 버튼을 초록색 + 더 큰 사이즈로 변경하면 신규 방문자의 가입 시작률이 15% 이상 향상될 것. 페이지뷰 → 가입 시작 CTR로 확인한다."

---

## 표본 크기 빠른 참고표

| 기준 전환율 | 10% 향상 감지 | 20% 향상 감지 | 50% 향상 감지 |
|-----------|-------------|-------------|-------------|
| 1% | 변형당 150,000 | 변형당 39,000 | 변형당 6,000 |
| 3% | 변형당 47,000 | 변형당 12,000 | 변형당 2,000 |
| 5% | 변형당 27,000 | 변형당 7,000 | 변형당 1,200 |
| 10% | 변형당 12,000 | 변형당 3,000 | 변형당 550 |

**InsuWiki 현실 시나리오:** 전환율 3%, 20% 향상 감지 목표 → 변형당 12,000명 필요 → 일 방문자 1,000명이면 24일 소요.

---

## 지표 선택

| 지표 유형 | 역할 | 보험 서비스 예시 |
|---------|------|--------------|
| **1차 지표** | 테스트 결과 결정 | 보험 상담 신청률 |
| **2차 지표** | 1차 지표 해석 지원 | 페이지 체류 시간, 스크롤 깊이 |
| **가드레일** | 나빠지면 테스트 중단 | 보험 문의 취소율, 불만 접수 |

---

## 보험 서비스 A/B 테스트 아이디어

### CTA 버튼 테스트
| 컨트롤 | 변형 | 가설 |
|--------|------|------|
| "시작하기" | "무료 보험 비교하기" | 구체적 혜택 명시 → 클릭률 향상 |
| "지금 가입" | "30초 보험 점수 확인" | 진입 장벽 낮추기 |
| 파란색 버튼 | 초록색 버튼 | 신뢰감/행동 유도 색상 차이 |

### 헤드라인 테스트
| 컨트롤 | 변형 | 가설 |
|--------|------|------|
| "보험 비교의 새로운 기준" | "10분에 내 보험 점수 알아보기" | 구체성 → 전환율 향상 |
| "전문가 보험 정보" | "복잡한 보험, 쉽게 이해하세요" | 고객 언어 공감 |

### 보험 설명 카피 테스트
| 컨트롤 | 변형 | 가설 |
|--------|------|------|
| 기능 나열 | 혜택/결과 중심 | 감정적 연결 → 전환율 향상 |
| 텍스트 중심 | 인포그래픽 포함 | 시각화 → 이해도 향상 |

---

## 트래픽 할당

| 방식 | 분배 | 사용 시점 |
|------|------|---------|
| 표준 | 50/50 | 기본 A/B 테스트 |
| 보수적 | 90/10 | 나쁜 변형 리스크 제한 |
| 점진적 | 소규모→확대 | 기술적 리스크 관리 |

---

## 테스트 실행

### 시작 전 체크리스트
- [ ] 가설 문서화
- [ ] 1차 지표 정의 + 표본 크기 계산
- [ ] 변형 구현 + 추적 검증 + QA

### Peeking 문제 주의
표본 크기 도달 전 결과 확인 후 중단 → 거짓 양성(False Positive) 발생. 사전에 표본 크기를 확정하고 신뢰해야 한다.

---

## 결과 분석

### 통계적 유의성
- 95% 신뢰도 = p-value < 0.05 (결과가 우연일 확률 5% 미만)

### 결과 해석

| 결과 | 결론 |
|------|------|
| 유의미한 승자 | 변형 적용 |
| 유의미한 패배 | 컨트롤 유지, 실패 원인 분석 |
| 유의미한 차이 없음 | 더 대담한 변경 필요 |
| 혼재된 신호 | 세그먼트별 심층 분석 |

### 분석 체크리스트
1. 표본 크기 충족 여부
2. 통계적 유의성 확인
3. 효과 크기가 의미 있는가
4. 2차 지표 일관성
5. 가드레일 이상 없음
6. 모바일 vs. PC, 신규 vs. 재방문 세그먼트 차이

---

## 공통 실수

- 너무 작은 변경 테스트 (감지 불가)
- 여러 요소 동시 변경
- 명확한 가설 없음
- 목표 전 조기 중단
- 세그먼트 체리피킹

---

## 관련 스킬

- **page-cro**: 테스트할 아이디어 발굴
- **analytics-tracking**: 테스트 측정 설정
- **copywriting**: 변형 카피 작성
- **churn-prevention**: 취소 흐름 A/B 테스트