-
Probability and Statistics (1)[mathematics] 2021. 5. 13. 17:42
(아직 이해가 덜 된 상태에서 쓴 글입니다. 코멘트는 적극 환경합니다.
p-value & significance level
데이터과학기초 강의를 들으면서 잘 이해가 되지 않는 개념을 소개하려고 한다.
우선 단어의 정의부터 알아보자.
significance level (유의수준)
A threshold of p-value to reject or not to reject the null hypothesis.
간단히 말해서 p-value의 역치값이다. 그럼 도대체 p-value는 무엇인가.
p-value (유의 확률)
probability that a statistic exceeding the observed one (toward the alternative hypothesis) is from the null distribution
귀무 가설(null hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다. (출처 위키백과)
유의 확률 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 양쪽 꼬리 유의 확률의 정의 오른쪽 꼬리 유의 확률의 정의 통계적 가설 검정에서 유의 확률(有意 確率, 영어: significance probability, asymptotic significance) 또는 p-값(
ko.wikipedia.org
참고로, null distribution은 다음과 같다.
a distribution of the whole population when the null hypothesis is true.
즉, 귀무 가설이 사실일때의 분포이다.
위 정의를 토대로, p-value 와 significance level 의 관계를 이해해보자.
강의에서 언급한 예시를 살펴보면,
p-value = 0.034 =3.4% 일때, 두 가지의 결론이 도출될 수 있다.
(예시에서는, 귀무가설(H_0)이 소금물의 어는점은 0도 라고 설정했다.)
- Conclusion 1
With a 5% significance level, the freezing point of salty water is significantly different from 0,
or equally H_0 is rejected. (significance level=5% > p-value=3.4%)
- Conclusion 2
With a 1% significance level, the freezing point of salty water is not significantly different from 0,
or equally H_0 cannot be rejected. (significance level=1% < p-value=3.4%)
이해가 잘 안되어 더 찾아보았다.
어떤 실험 결과 자료를 두고 "통계적으로 유의하다." 라고 하는 것은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다.
가설 검정에서 통계값과 연구자가 설정한 수준(유의수준)을 비교·판단하여 영가설(귀무가설)을 기각할 때, 연구가설이 "통계적으로 유의하다"라고 한다.좀더 찾아보니, p-value에 대해 다른 시각에서 소개한 내용이 있어 소개한다.
귀무가설이 참임에도 이를 기각할 확률 이라고 생각하시면 됩니다. 그러니까 귀무가설이 참일때 실제로 관찰된 값처럼 대립가설을 지지하는 검정통계치를 모을 확률로, 귀무가설을 지지하는 정도를 의미합니다.
그러니까, 만약 유의 확률이 0.02라면 귀무가설을 기각했을때 이 기각 결정이 잘못될 확률이 2%라는 것이고 기각 결정이 잘못될 확률이 너무 작기 때문에 과감하게 기각해도 된다고 해석이 가능해집니다.
즉 유의 확률이 적으면 적을 수록 표본분석의 결과는 귀무가설과 상반되고, 연구자는 귀무가설이 기각 되어 대립가설이 채택되기를 원하기 때문에 보통 p-value가 낮을 수록 통계적으로 유의미하다라고 생각하고 이를 바랍니다.마지막 문장을 보면,
p-value 가 작을수록 표본분석의 결과는 귀무 가설과 상반되고, 연구자는 귀무 가설이 기각되어 대립가설이 채택되기를 원하기 때문에 보통 p-value가 작을수록 통계적으로 유의미하다 라고 생각하고 이를 바란다.
'[mathematics]' 카테고리의 다른 글
Optimization (2) (0) 2021.05.20 Optimization - use EXCEL to solve optimization problems (0) 2021.05.19 Probability and Statistics III - (2) Conditional probability distribution (0) 2021.05.04 Probability and Statistics III - (1) Joint probability distribution (0) 2021.05.03