오늘은 통계결과에서 P값의 의미에 대해서 아주 가볍게 얘기해보고자 한다.
사실, 필자도 기초통계학, 보건통계학, 역학연구론 등의 수업에서 통계에 대한 이론을 배우기는 했으나,
통계전공자가 아니므로 대학원시절에는 좀처럼 통계에 대한 감이 잡히지 않았다.
(사실, 그 시절에는 실험연구 위주로 했기때문에 실험설계나 실험 자체에 집중했고, 통계는 결과 분석할 때 통계를 전공한 교수님과 논의해서 해결하곤 했기때문에 그랬던 것 같다.)
로널드 피셔(Ronald A Fisher)는 매우 유명한 통계학자로, 통계적인 유의성 검정을 위한 기초적인 가이드라인을 확립한 사람이다.
그가 제시한 가이드라인이라는 것은
모집단에 관한 가설을 작은 표본으로 추정하는 방법을 수립하기 위해 만들어졌고,
이러한 모집단에 대한 추정 방법은 통계학을 크게 발전시켰다.
하지만 사회과학 연구에서 가설을 검정할 때에는 종속변수가 무수히 많은 외생변수에 의해 영향을 받을 수 있고 이러한 모든 외생변수를 통제하는 것은 쉽지 않다. 그렇기 때문에, 관찰된 표본에서 두 변수가 서로 관계가 있어 보일지라도, 실제로 모집단 안에서 그들의 관계는 존재하지 않는 것일 수도 있다. 따라서, 추론적인 통계는 확실하거나 결정론적인 것이 아니라 모든 결과가 확률적인 것이다.
(하지만, 표본 안에서 매우 확실한 관계가 나타났다면 실제 모집단에서 그러한 관계가 있을 확률이 매우 높은 것임은 분명하다)
그렇다면 관찰된 표본에서 두 변수의 관계가 어느정도의 의미가 있는 수준인지 어떻게 알 수 있을까?
그리고 우연히 일어난 것이 아니라는 것을 어떻게 알 수 있을까?
추론적 통계에서 통계적 결과가 기각될 확률이 p 값(p value)이고, 유의수준 (α) 이라고 한다.
로널드 피셔(Ronald A Fisher)는 통계적 결과가 기각될 확률이 5%이거나 그 이하일 때 유의미하게 여겨진다고 말했다.
그래서 대부분의 연구들에서 P 값(p-value)이 0.05 이하일 경우, 귀무가설을 기각한다는 것이다.
반대로, p>0.05 일 경우, 귀무가설을 기각하거나 대립가설을 승인하는 충분한 근거를 가지고 있지 못한다는 것을 나타낸다.
그리고 이러한 P 값(유의수준)에 영향을 주는 것이 표본분포, 표준오차, 신뢰구간이다.
표본분포(sampling distribution)는 모집단으로부터 무한의 표본들로 이루어진 이론적 분포를 의미한다 (이 분포가 정규분포인지 아닌지에 따라 모수검정과 비모수검정으로 통계방법이 달라짐).
하지만 표본은 결코 모집단과 동일하지는 않기 때문에, 모든 표본은 모집단과의 차이인 오차를 가지고 있으며, 이것을 표준오차(standard error)라고 한다.
표준오차가 작다는 것은 표본이 모집단을 매우 잘 대표하고 있으며(그래서 N수가 많으면, 표준오차가 작고 유의할 확률이 높아짐), 표본의 통계추정치(표본 평균값)가 모집단의 좋은 추정치라고 할 수 있다.
그리고 이러한 표본 추정치의 정확성을 신뢰구간(confidence interval: CI)이라고 하며, 95% CI 는 평균값 추정치에서 플러스 마이너스 두개의 표준편차 안에 있는 것으로 정의된다.
그렇기 때문에, 관찰된 표본 추정치가 95% 수준의 CI 를 갖고 있다면, 모수가 관찰된 표본 추정치의 두 개의 표준편차 안에 95%의 확률로 존재한다고 할 수 있다.
P 값(p-value)의 신뢰구간(CI)는 모두 표본이 얼마나 모집단에 근접한지 알 수 있게 해주는 지표이다.
하지만, 이러한 통계적인 개념을 논문이나 연구의 분석을 위해 공부해야 할 필요가 있다면,
이렇게 이론적으로 공부하는 것보다는 실제 논문의 결과표와 연구방법을 보면서 공부하는 것이 훨씬 효율적인 방법인 것 같다.
아래의 포스팅들은 통계방법별로 논문의 결과표를 해석한 것이니, 참고하기 바란다.
<카이제곱검정, 분산분석(ANOVA), 로지스틱 회귀분석의 해석>
https://blog.naver.com/privatalab/221870780385
<라오스콧카이제곱검정, t-test, 다중로지스틱 회귀분석>
https://blog.naver.com/privatalab/221897179215
[논문읽기] 카이제곱, ANOVA, Logistic regression 논문통계 결과표 해석_수유와 유아비만의 관계 (0) | 2023.10.13 |
---|---|
[논문통계 SPSS] ROC 커브 (Receiver Operating Characteristic curve)_AUC 판정기준 (0) | 2023.10.13 |
[설문지 입력/코딩] 논문통계 준비하기_엑셀로 설문결과 코딩하기 (0) | 2023.10.11 |
[실전논문] 논문 통계분석을 의뢰해야하는 대학원생, 또는 연구원이 알아야하는 주의사항 (0) | 2023.03.16 |
[논문통계 용어] 연구에서 모집단(populatiin)과 표본(sample), 모수(parameter)가 의미하는 것은 무엇일까? (0) | 2023.02.21 |