일원배치 분산분석(one-way ANOVA)은 논문 통계 분석에서 가장 많이 이용되는 기본적인 차이 분석 방법 중 하나이다.
그래서 선생님들 연구를 분석할 때, 자주 사용한다.
때때로 초보연구자분들의 경우,
데이터의 정규성 검정을 하지 않고 분산 분석을 진행해버리고,
심사 과정에서 발견되어 고초를 겪은 후, 재분석을 해야 하는 경우가 많이 있었다.
그래서 오늘은 제대로 일원배치 분산분석을 이용할 수 있도록 소개해보려고 한다.
기본적으로 일원배치 분산분석 (one-way ANOVA)은 세 집단 이상의 평균값에 차이가 있는지 검증할 때 사용하는 분석이다.
그리고 이 때에 집단을 정의하는 변수(독립변수)는 세 개 이상의 범주형이어야 하고,
평균을 비교하고자 하는 변수(종속변수)는 연속형이어야한다.
또한, 일원배치 분산분석 (one-way ANOVA)도 independent t-test와 동일하게 각 집단의 종속변수가 정규분포할 때에 사용할 수 있는 모수검정이다. (일반적으로 각 군의 데이터가 모두 30개 이상일 경우에는 정규성 검정을 하지 않는 경우도 있으나, 분산분석을 하기 전에 데이터의 정규성 여부는 체크를 해보고 통계방법을 최종적으로 결정할 것을 추천한다.)
SPSS를 이용한 정규성 검정은 아래의 포스팅을 참고하기 바란다.
https://blog.naver.com/privatalab/221960944825
우리는 연구에서 아래와 같은 여러 집단의 비교를 많이 하게된다.
예를 들어, 일반적 특성에 따른 종속변수의 차이를 보아야 할때,
성별이나 직업유무, 결혼여부처럼 두 집단으로 나뉘는 경우에는 t-test를,
아래와 같이 3개 이상의 그룹으로 나뉘는 경우에는 ANOVA를 이용하여 분석하게 된다.
(모두 정규분포 하는 데이터라는 전제하에 말한다)
청년 VS 중년 VS 고령
연령에 따른 집단의 삶의 질은 같은가?
(차이가 있다면, 어느 집단의 평균 삶의 질이 높은가?)
저체중 VS 정상 체중 VS 과체중 VS 비만
체질량지수에 따라 분류한 집단의 공복혈당 수치는 같은가?
(차이가 있다면, 어느 집단의 평균 공복혈당이 가장 높은가?)
그리고 이러한 가설에서, 집단 사이의 평균에 차이가 있는지 검증하기 위해서는 다중 평균비교를 해야한다. 그리고 이때에 위에서 언급한 정규성 검정을 실시하여 데이터의 특성을 확인한 후,
일원배치 분산분석(모수적 방법)이나 Kruskal-Wallis test(비모수적 방법)을 이용하여 집단 사이에 크기의 차이가 있는지 전반적인 검정을 먼저 시행하고 차이가 있다고 증명되었을 때,
이후 어느 집단의 수치가 다른 집단 보다 높은지 또는 낮은지를 확인하는 다중비교(사후검정) 분석을 하게 된다.(사후검정에 대해서는 아래에서 다시 설명하도록 한다.)
이제 SPSS 프로그램에서 데이터를 열고 분석하는 순서를 알아보면,
[분석] - [평균비교] - [일원배치 분산분석] 순서로 클릭하면 아래의 상자가 나타난다.
위쪽 하늘색 화살표에 종속변수(우울점수)를 넣고,
아래쪽 하늘색화살표의 자리에 그룹변수(교육수준)를 넣고,
오른쪽의 초록색 화살표의 [사후검정] 상자를 클릭한다.
(spss에서는 분산분석과 동시에 사후분석을 시행한다)
사후분석에서는 논문에서 가장 많이 쓰는 몇 가지를 비교해보고자 체크해 보았다.
(실제로는 데이터 특성에 맞는 방법을 한 가지 선택하면 된다)
등분산을 가정하는 Duncan, Tukey, Scheffe 와 등분산을 가정하지 않는 Dunnett's T3를 체크하고 [계속]을 누른다.
그리고 [옵션]으로 들어가 기술통계, 분산 동질성 검정, Welch를 체크하고 [계속]을 누른다.
(Welch는 등분산이 만족되지 않을 경우를 위해 체크하는 것이므로 필수적인 것은 아니다)
이제 [확인]을 누르면, 결과창이 표시된다.
결과를 보면,
제일 먼저 기술통계가 표시되고, 두번째로 분산의 동질성 검정결과가 표시된다.
(지금 p가 0.00으로 등분산을 가정할 수 없는 것으로 도출되었다. p가 0.05 이상이어야 등분산을 가정하여 일원배치 분산분석으로 가설 검정을 할 수 있다.)
그러므로 군 간의 등분산이 가정되지 않고, 군강의 표본수의 크기 차이가 많이나는 경우,
Welch의 분산분석으로 해석한다.
하지만, 군 간의 표본수의 크기가 많은 차이가 없다면, 그냥 일원배치 분산분석으로 해석하는 경우가 많고,
등분산이 가정된 경우라면, 당연히 일원배치 분산분석 결과로,
'교육수준에 따른 우울이 모두 같지는 않다'
'교육수준에 따라 우울정도가 다른 군이 하나 이상 있다'
논문에는 '교육수준에 따른 우울점수에 유의적인 차이가 있다'라고 해석한다.
그리고 어느 집단의 우울이 다른 집단보다 높은지 확인하기 위한 사후검정 결과를 비교해 보면,
Duncan 결과에서는
초등졸업이하a, 중등졸업b, 고등졸업c, 전문대학졸업이상c 로 나타나,
고등졸업과 전문대학졸업이상의 우울점수가 다른 그룹보다 유의적으로 낮고, 그 다음으로 중등졸업, 초등졸업 이하의 순서로 유의적으로 우울점수가 높다.
Tukey, Scheffe 결과에서는
초등졸업이하a, 중등졸업b, 고등졸업bc, 전문대학졸업이상c
초등졸업 이하의 우울점수가 다른 그룹보다 유의적으로 높고, 전문대학졸업이상의 우울점수가 초등졸업이하나 중등졸업 그룹보다 유의적으로 낮으나, 중등졸업과 고등졸업 그룹 간에는 우울점수에 유의적인 차이가 없었다.
로 사후검정 결과가 다르다.
이것은 Duncan 검정이 덜 타이트하기 때문이고, 경우에 따라서는 타이트한 사후검정을 사용했을 경우,
ANOVA에서는 유의한 차이가 있다고 나왔으나, 사후검정에서는 차이가 없다고 분석되는 때도 있다.
그러므로 본인의 결과와 데이터 특성에 맞는 사후검정을 선택하여 분석하는 것이 중요하다.
실제 논문 안에서 이러한 결과가 어떻게 해석되는지는 아래의 포스팅에 설명되어 있으니, 참고하면 좋겠다.
https://blog.naver.com/privatalab/221870780385
오늘은 여러 집단의 평균비교에 이용되는 일원배치 분산분석의 방법과 해석을 알아보았다.
많은 내용을 한번에 소개하고자 하다보니, 헷갈리는 부분도 있을 것이다.
모든 분석은 절대적인 것이 없고, 데이터의 특성과 그 의미에 따라 매우 다른 분석방식으로 전개되는 경우도 있다.
연구자들이 단편적인 결과를 쫒기보다는 데이터가 보여주는 양상을 넓은 의미에서 해석해가는 연습을 하는 것이 무엇보다 중요하다는 생각이 든다. (에디터로써, 분석을 하다보면, 가장 어렵고 필요한 것이 troubleshooting이다.
잘못된 부분을 찾아내는 것, 데이터의 오류나 분석자의 Miss를 찾아내는 것, 데이터의 특성에 맞는 분석방법을 찾는 것이 그 것이다.)
지금도 그렇지만, 앞으로는 더욱 방대하고 복잡한 분석방법이 나타날 것이므로 우리 모두 공부에 매진해보자!
그리고 혼자 논문에 대해 공부하기에 너무 기초가 부족하다고 생각되면,
기초 논문읽기와 해석 수업을 들어보라고 추천한다.
클래스유 '논문의 모든 것' 수업을 한 달 들으면 5만원 정도인데, 한 달만 들어보면 논문에 대한 기본 팁과 통계 방법별로 논문결과를 해석하는 방법을 알 수 있도록 연구소 박사들이 만든 커리큘럼이라서 신입생이나 연구소 석사 연구원들에게 추천하곤 한다.
논문은 본인 전공과 경험에 따라서 읽고 해석하는데에 필요한 수업이 다르니, 많이 찾아보고 책이나 수업을 선택해보면 좋을 것 같다.