온라인 A/B 테스트 가설 검정 계산기

두 그룹(A와 B)을 비교하여 전환율이나 평균에 통계적으로 유의미한 차이가 있는지 확인하세요. P-값을 즉시 계산합니다.

P-값 (p)
0.000
귀무 가설을 기각할 충분한 근거가 있습니다
개선 분석 (Lift)
0% 그룹 A 대비 개선율
통계적 신뢰도: 0%
확률 분포

겹치는 영역을 확인하세요. 겹치는 부분이 적을수록 그 차이가 우연이 아닌 실제일 가능성이 높습니다.

보고서용 텍스트

X명의 대상을 분석한 결과, 그룹 B는 Z%의 통계적 신뢰도(p=0.00)와 함께 Y%의 개선을 보였습니다.

유틸리티 스튜디오

이 유틸리티를 내 웹사이트에 추가하고 싶으신가요?

WordPress, Notion 또는 직접 운영하는 사이트에 맞게 색상과 다크 모드를 설정하세요.

자주 묻는 질문

P-값은 무엇을 의미하나요?

P-값은 그룹 A와 그룹 B의 성과 차이가 순전한 우연일 확률을 알려줍니다. P-값이 유의 수준(일반적으로 0.05)보다 낮다면, 그 차이가 실제일 확률이 95%라는 것을 의미합니다.

유의 수준(알파 또는 α)이란 무엇인가요?

테스트의 엄격함을 결정하는 기준입니다. 알파가 0.05라면 그룹 B가 A와 다르다고 판단하기 위해 95%의 확신이 필요하다는 뜻입니다. 알파가 0.01이면 훨씬 더 엄격한 기준(99%)이 적용됩니다. 학술 및 산업계에서는 기본적으로 0.05를 사용합니다.

비율 검정과 평균 검정의 차이는 무엇인가요?

비율 검정은 클릭, 이메일 오픈, 전환과 같은 이분법적인 성공 여부를 측정합니다. 평균 검정은 평균 구매 금액이나 임상 회복 일수와 같은 정량적 수치를 비교합니다.

표본 크기가 30명 미만이면 어떻게 되나요?

표본 크기가 매우 작으면 정규 분포 근사의 정확도가 떨어집니다(중심 극한 정리). 임상적 의사 결정의 경우 보다 보수적인 정확 확률 검정이나 조정된 스튜던트 t-검정 기법을 사용하는 것을 권장합니다.

# 온라인 A/B 테스트 가설 검정 계산기

직관에만 의존해 결정하는 것은 위험합니다. 데이터에 기반한 결정만이 성공으로 가는 길입니다. 가설 검정 계산기 (A/B 테스트)는 두 그룹 간의 차이가 통계적으로 유의미한지, 아니면 단순한 우연인지를 확인해야 하는 분석가, 마케터 및 연구자를 위한 필수 도구입니다.
P-값 최종 판정관
로컬 데이터 업로드 없음
즉시 네이티브 차트

# 테스트를 전환율과 평균으로 나누는 이유는 무엇인가요?

조사의 성격에 따라 성공 지표가 달라집니다. 본 도구는 업계에서 가장 널리 사용되는 두 가지 통계 검정 유형을 기본적으로 지원합니다.

비율 검정 (전환율)

두 그룹 간의 백분율이나 성공률을 비교합니다.

  • 마케팅에 최적 (클릭, 판매, 구독)
  • 총 사례 수(n)와 성공 횟수(x) 사용
  • 두 비율 Z-검정 적용

연속 평균 검정

두 그룹 간의 평균적인 수치를 비교합니다.

  • 평균 객단가, 체류 시간 또는 임상 시험에 최적
  • 평균(μ) 및 표준 편차(σ) 사용
  • 표본에 대한 강력한 정규 근사 적용 (Z/T)

# 결과 해석 방법: P-값이 가이드입니다

이 계산기의 핵심은 그 유명한 P-값입니다. 이 숫자는 귀무 가설("두 그룹이 동일하다")이 사실이라고 가정했을 때, 현재 관찰된 것과 같은 차이가 나타날 확률을 알려줍니다.
관측된 P-값 실제 의미 표준 결정
0.05보다 큼분산에 비해 차이가 작습니다. 우연으로 설명될 수 있습니다.귀무 가설을 기각하지 않음. 입증된 실제 개선 사항이 없습니다.
0.05보다 작음우연히 이런 차이가 발생할 확률은 극히 낮습니다. 실제 효과가 존재합니다.귀무 가설을 기각함. 변수 B의 성과가 더 좋습니다!
0.01보다 작음변화가 확실하다는 증거가 압도적입니다 (99% 신뢰도).단호하게 기각함. 실험이 매우 성공적입니다.
소규모 표본 보정
실험군이 30명 미만인 경우, 도구에 "소규모 표본" 경고가 표시됩니다. 이러한 경계 선상의 시나리오에서는 고전적인 정규 근사의 정밀도가 떨어지므로, 정확한 스튜던트 t-검정 또는 피셔 도구를 사용하는 것을 권장합니다.

# A/B 테스트 용어집

대조군 (Group A)
실험의 기준이 되는 원래 버전 또는 기본 상태입니다.
실험군 (Group B)
지표 개선을 기대하며 새로 수정한 버전입니다.
리프트 (상대적 개선)
대조군 A 대비 실험군 B의 성과 변화율입니다.
유의 수준 (α)
허용할 수 있는 오류의 한계치입니다 (통상 5% 또는 0.05).

참고 문헌