통계적 가설 검정

13주차 수업에서는 통계 분석의 절차에 대해서 학습하였습니다. 여기서 말하는 통계 분석의 통계는 기술통계보다는 추론 통계에 더 가깝다고 할 수 있습니다.

  • 기술 통계 : 데이터를 요약해 설명. 우리가 지금까지 해 왔던 EDA도 이 통계 분석 방법 중에 하나.

  • 추론 통계 : 단순하게 숫자의 요약이 아닌 어떤 값이 발생할 확률까지도 계산하는 기법

추론 통계의 예를 들어 보자면, A그룹의 값의 평균이 B그룹의 값의 평균보다 높다 라는 것이 데이터에서 나타났을 때 이러한 차이가 막연히 우연에 의해서 나타날 확률이 있기 때문에, 그 확률을 계산하는 것이 입니다.

<통계 분석 절차>

  1. 분석 방법 선정

  2. 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정

  3. 분석도구 검정통계량 실행 및 확인

  4. 유의 수준 결정 : 0.1, 0.05, 0.01

  5. 유의 확률 확인

  6. 유의확률과 유의수준 비교

  7. 귀무가설과 대립가설 선택

  8. 분석 결론

1. 가설

가설은 모수(모집단)에 대한 예상입니다.

1) 귀무가설 (영가설) : H0

귀무가설, 혹은 영가설은 통계학에서 처음부터 버릴 것을 예상하는 가설을 말합니다. 기본 상태에서 변화가 없거나 의미없는 차이가 없는 경우이며, ~~가 맞지 않다는 것을 통계학적 증거를 통해 증명하는 가설 입니다.

예를 들어 범죄 사건에서 A라는 용의자가 있을 때 A는 무죄이다. 라는 영가설을 세울 수 있습니다.

통계에서는 이 통계 집단의 통계가 유의미하지 않다 (무의미하다.) 라는 것이 영가설 입니다. 즉, 0이 되는 값, 없다, 존재하지 않는다, 변화가 없다, 무의미한 경우에는 영가설이라 할 수 있습니다.

2) 대립가설 (연구 가설, 유지 가설) : H1

대립가설은 귀무가설에 대립되는 가설 입니다. 기본 상태에서 변화가 생기거나, 의미있는 차이가 있을 때 입니다. 모집단에서 독립변수와 결과 변수 사이에 관련이 있다. (의미있는 차이가 있다.) 라는 뜻 입니다. 귀무가설을 기각함으로써 받아들여지는 반증의 과정으로 받아들여집니다.

예를 들어 범죄 사건에서 A라는 용의자가 있을 때 A는 유죄이다. 라는 영가설을 세울 수 있습니다. 이때 A를 유죄이다를 입증하기 위해서는 A는 무죄이다를 반박하기 위한 증거를 수집해서 제시해야 합니다.

통계에서는 귀무가설보다 대립가설이 더 중요합니다. 세상에 변화를 불러일으키는 것이 대립가설이기 때문이죠. 일반적으로 통계에서는 대립가설을 맞다고 가정하여 통계 분석을 실시합니다. (영가설은 원래 상태이기 때문에)

2. 통계적 가설 검정

통계적 가설 검정은 대립가설이 맞는지 (관측한 통계치가 유의미한 결과인지) 입증하는 과정 입니다. 실제로 집단 간의 유의미한 차이가 있어 통계치에 차이가 있는지, 혹은 우연에 의해 나온 결과인지 알아보는 것 입니다.

이때 사용하는 것이 유의수준과 유의확률 입니다.

1) 유의수준

일반적으로 유의 수준은 α로 표현합니다. 95% 신뢰도 기준으로, 0.05값이 유의수준 값이 됩니다.

2) 유의확률

유의확률, 혹은 P값은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 결과 입니다. 실험의 유의확률은 실험의 표본 공간에서 정의되는 확률변수로, 0에서 1 사이의 값을 가집니다.

 

p-value가 작을수록 귀무가설보다 대립가설에 가깝다 (유의미하다.) 라고 볼 수 있습니다. 특정한 값 **0.05**, 0.01 의 수보다 작을 경우 귀무가설을 기각하고 대립가설을 채택하는 것이 관례입니다.

 

 

참고자료

https://ko.wikipedia.org/wiki/%EA%B7%80%EB%AC%B4_%EA%B0%80%EC%84%A4

https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0

 

'Study > Data Mining' 카테고리의 다른 글

Do it R 분석 도전 (midwest) - 160  (0) 2019.04.17
Do it R분석 도전 (midwest) - 123  (0) 2019.04.10
Kaggle  (0) 2019.03.15
R language  (0) 2019.03.15
EDA (탐색적 데이터 분석)  (0) 2019.03.14

+ Recent posts