# 카이제곱 독립성 검정 계산기
A/B 테스트나 기술 통계와 같은 고전적인 도구는 연속적인 데이터(평균, 수익, 무게)에 매우 적합하지만, 실제 세계는 범주형 데이터(색상, 브랜드, 만족도)로 가득 차 있습니다. 카이제곱 독립성 계산기는 두 정성적 변수가 통계적으로 연결되어 있는지, 아니면 서로 완전히 독립적으로 변하는지를 분석적으로 판단하는 가장 대표적인 검정입니다.# 카이제곱 통계량(χ²)은 구체적으로 어디에 쓰이나요?
카이제곱 독립성 검정은 관측 빈도(실제로 측정하고 수집한 수치)와 기대 빈도(변수 간에 아무런 관계가 없을 때 각 셀에서 예상되는 수치)를 비교합니다.종속 변수 (관계 있음)
한 범주의 비율이 다른 범주에 따라 크게 달라집니다.
- 예: 모바일 방문자는 디자인 A를 선호하지만, PC 사용자는 디자인 B를 선호함.
- 카이제곱(χ²) 값이 급증하고 P-값이 급감합니다.
- 크래머 V가 관계의 강도를 나타냅니다 (예: 강함 > 0.5).
독립 변수 (우연)
비율이 모든 영역에서 일정하게 유지됩니다.
- 예: 고객의 눈 색깔은 자동차 브랜드 구매 결정에 영향을 주지 않음.
- 카이제곱 값이 매우 작고 P-값이 0.05보다 큽니다.
- 귀무 가설을 기각할 수 없습니다.
# 크래머 V: 관계의 강도 이해하기
P-값이 매우 낮다고 해서 변수가 반드시 고도로 밀접하게 연결된 것은 아닙니다. 그것은 단지 우연이 원인일 가능성이 낮다는 것을 나타낼 뿐입니다(표본이 매우 많은 경우 등). 관계의 실질적인 강도인 "효과 크기"를 측정하기 위해 본 도구는 크래머의 V 계수를 자동으로 제공합니다.| 계산기 (V 값) | 분석적 평가 | 해석 |
|---|---|---|
| 0.00 ~ 0.10 | 관계 없음 / 무시할 만한 연관성 | 이론적으로는 종속적일 수 있으나 비즈니스적으로는 감지되지 않는 수준입니다. |
| 0.11 ~ 0.30 | 약한 연관성 | 어느 정도 관계는 있으나 다른 외부 요인의 영향이 더 큽니다. |
| 0.31 ~ 0.50 | 보통 연관성 | 두 특성이 서로 눈에 띄게 영향을 미칩니다. |
| 0.50 이상 | 강한 연관성 | 매우 명확한 관계입니다. 변수 A를 알면 변수 B를 상당히 정확하게 예측할 수 있습니다. |
수학적 성립 조건
비어 있는 셀에 주의하세요! 피어슨 카이제곱 근사가 정밀하게 작동하려면 기대 빈도(관측 빈도가 아님)의 80% 이상이 5보다 커야 하며, 빈도가 1 미만인 셀이 없어야 한다는 방법론적 조건이 필요합니다. 이 조건이 충족되지 않으면 경고 표시가 나타나며 범주 병합을 권장합니다.# 내장된 잔차 히트맵
사용자 경험을 개선하고 보고서 결론 도출을 돕기 위해, 본 행렬은 표준화 잔차(편차)를 기반으로 셀 배경을 자동으로 색칠합니다.초록색 계열: 해당 셀은 수학적 기대치보다 훨씬 더 많은 성공 사례를 포함합니다.
빨간색 계열: 해당 셀은 기대치에 비해 위험할 정도로 "비어 있음"을 나타냅니다.
# 카이제곱 용어 설명
- 관측 빈도
- 실험이나 설문 조사에서 실제로 집계된 정확한 수치입니다.
- 기대 빈도
- 변수 간 독립을 가정했을 때, 행과 열의 비율을 기반으로 산출된 이론적 빈도입니다.
- 자유도 (df)
- 통계적으로 자유로운 데이터의 수치. (행 수 - 1) × (열 수 - 1)로 구합니다.
- 표준화 잔차
- 관측값과 기대값의 차이를 정규화한 수치입니다. 어느 셀이 결과에 큰 영향을 주는지 보여줍니다.