취소율이 2%에서 1%로 줄어들었다
이 문장만 가지고는 유의미한 변화가 있는건지 아닌지 판단할 수 없음
단순히 우연에 의한건지, 실제 의미있는 변화인지 판단하기 위해 p value를 활용하고자 함
1. 가설 설정
- 귀무 가설 (H₀): 취소율의 변화가 우연에 의한 것이며, 실질적인 차이가 없다. 즉, 2%에서 1%로 줄어든 변화가 의미가 없다고 가정
- 대립 가설 (H₁): 취소율의 변화가 우연이 아니며, 실제로 의미 있는 차이가 있다는 가설
2. 통계적 검정 방법 선택
- 두 비율의 차이를 비교할때, 각 비율의 표본크기가 충분히 클 때
- z-검정 (Two-proportion z-test) 방법 사용
[More about 표본의 크기]
- 표본 크기(N)가 클수록 작은 변화도 유의미할 가능성이 커짐
- 통계적으로 충분히 큰 표본 크기를 판단할 때는 중심극한정리(Central Limit Theorem)를 참고
- 충분히 큰 표본이란?
- 표본 크기 n이 30 이상
- 일반적인 기준으로, n ≥ 30일 때 표본 분포는 정규분포에 가까워진다고 간주
- 그러나 비율 검정에서는 이보다 더 큰 표본 크기가 필요할 수 있음
- np ≥ 5 그리고 n(1-p) ≥ 5
- 이는 비율 검정에서 자주 사용하는 기준,
- 여기서 p는 기대되는 성공 확률을 나타내며, np는 성공 횟수의 기대값, n(1-p)는 실패 횟수의 기대값
- ex. 기대되는 취소율이 2%이고 표본 크기가 1,000일 경우:
- np = 1000 × 0.02 = 20
- n(1-p) = 1000 × 0.98 = 980
- 두 값 모두 5 이상이므로, 충분한 표본 크기로 간주할 수 있음
- 표본 크기 n이 30 이상
3. z-검정을 통한 유의미성 판단
z-검정을 사용하여 취소율 2%에서 1%로 줄어든 변화가 유의미한지 계산
- p₁ = 첫 번째 기간의 취소율 (2% = 0.02)
- p₂ = 두 번째 기간의 취소율 (1% = 0.01)
- n₁ = 첫 번째 기간의 표본 크기 (주문 수)
- n₂ = 두 번째 기간의 표본 크기 (주문 수)
- p₀ = 두 기간 동안의 전체 취소율 평균
- p₀ = {(p₁ * n₁) + (p₂ * n₂)} / (n₁ + n₂)

- z-값 ?
- 평균이 0이고, 표준편차가 1인 표준 정규 분포를 기준으로 z-값을 계산
- z-값을 통해 특정 값이 평균(0)에서 얼마나 떨어져 있는지 측정할 수 있음
- 일반적으로 z-값이 2나 3을 넘으면 평균에서 꽤 멀리 떨어져 있다고 판단해 의미 있는 차이로 볼 수 있음
Ex. A기간의 주문취소율은 2%로 전체 주문 수는 50,000건이고 B기간의 주문취소율은 1%로 전체 주문 수는 20,000건일때
- n₁ = 50,000
- n₂ = 20,000
- p₁ = 0.02 (2%)
- p₂ = 0.01 (1%)
- p₀ = {(50,000 * 0.02) + (20,000 * 0.01)} / (50,000 + 20,000) = 약 0.017
즉, z-값은 약 9.21


4. p-값 계산
양측 검정을 사용해 p-값을 계산

- p-값은 귀무 가설이 참일 때 해당 결과가 우연히 발생할 확률
- p-값 < 0.05라면, 95% 신뢰 수준에서 그 변화는 우연이 아닌 의미 있는 변화로 판단
- p-값 > 0.05라면, 해당 변화는 통계적으로 유의미하지 않다고 판단하고, 변화가 우연일 가능성이 큼
Ex.
- z-값이 9.21
- 이는 표준 정규분포에서 평균(0)으로부터 매우 떨어진 값임
- p-값은 이 z-값보다 더 극단적인 값이 나올 확률을 의미함
- 양측 검정으로 p-값을 계산하면 거의 0에 가깝게 도출됨
- 즉, p-값이 0에 가깝다는 것은, 이 차이가 단순히 우연히 일어난 게 아니라 실제로 중요한 차이일 가능성이 매우 높다는 것을 의미
양측 검정이란?
- 양측 검정은 변화가 어느 한쪽 방향으로만 나타나는 것이 아니라, 양쪽 방향 모두를 고려할 때 사용하는 방법
- 즉, 값이 평균보다 크거나 작을 가능성을 모두 고려
양측 검정을 선택한 이유
- 취소율이 2%에서 1%로 줄어들었을 때, 이 변화가 단순히 우연이 아닌, 유의미한 차이인지 확인하고자 함
- 여기서는 취소율이 줄어드는 것뿐만 아니라, 늘어나는 경우도 유의미한 변화로 고려
#양측 검정(Two-tailed test) : 취소율이 변화한다면 방향에 관계없이 줄어드는것, 늘어나는것 모두 의미 있는 변화로 봄
#단측 검정(One-tailed test) : 특정 방향(예: 줄어드는 방향)으로만 의미 있는 변화로 봄
즉, 취소율이 줄어들거나, 늘어나는것 양방향의 변화 모두 의미있음
양측 검정이 적합
TIP) p-value 계산공식

TIP) Python으로 p-value 계산하기
from scipy.stats import norm
z_score = 9.21
p_value = 2 * (1 - norm.cdf(z_score)) # 양측 검정
[z-값과 p-값의 해석]
- z-값이 하는 역할: "평균에서 얼마나 떨어졌나" 측정
- 예를 들어, z-값이 9.21이라는 것은 평균(0)과 비교했을 때 매우 멀리 떨어져 있다는 의미
- z-값이 크면 클 수록 평균에서 멀리 떨어져 있다는 뜻으로 '드물게 발생하는 상황' 임
- 하지만 이게 얼마나 드문 일인지는 z-값만으로는 바로 알기 어려움
- 그래서 사용하는 지표가 p-값
- p-값이 하는 역할: "이 정도 차이가 우연히 일어날 확률"을 계산
- p-값은 우리가 계산한 z-값이 우연히 나올 확률을 보여주는 값
- 만약 p-값이 아주 작다면, "우연히 발생했다고 보기 어려울 만큼 드문 일"이라는 뜻
- 즉, p-값이 작을수록 우연이 아니다
z-값은 평균에서 얼마나 멀리 떨어졌는지 보여주는 "거리" 같은 개념이고,
p-값은 그 정도 거리의 차이가 "우연히 일어날 확률"을 의미함
5. 결론
취소율이 2%에서 1%로 줄어드는 변화가 유의미한지 판단하려면 통계적 검정 (z-검정)을 사용
z-값을 구해 이를기반으로 도출한 p-값을 기준으로 판단하면 됨
일반적으로, p-값이 0.05 이하일 때 통계적으로 유의미한 변화로 간주되며, 이를 통해 실제로 우연이 아닌 의미 있는 변화로 구분할 수 있음
'Study' 카테고리의 다른 글
| [AI] LangChain 랭체인 (0) | 2025.06.29 |
|---|---|
| [etc] 가상환경에서 jupyter lab 실행하기 (0) | 2025.05.11 |
| [AI] AI 개념 (0) | 2025.05.03 |
| [지표] AARRR 프레임워크: 프로덕트 성장을 위한 핵심 지표 (0) | 2025.01.30 |
| [개념] PG / VAN / 간편결제의 관계 (0) | 2024.09.15 |