오늘은 설문연구나 실험연구에서 논문통계에 기본이 되는 데이터코딩에 대하여 얘기해보려고 한다.
통계 프로그램으로 연구 결과를 분석하기 위해서는
연구 결과를 통계 프로그램에서 분석하기에 적합한 형태로 입력하는 과정을 거쳐야하고,
우리는 이 과정을 코딩이라고 부른다.
좀 더 자세히 말하면,
연구에서 결과 자료는 설문조사, 인터뷰, 실험, 관찰 등 다양한 방법으로부터 수집되지만,
결국 이러한 데이터가 통계 프로그램에 의해 분석되기 위해서는 엑셀이나 텍스트 파일과 같이 프로그램이 읽어드릴 수 있는 형태로 변환해주어야 한다.
그리고 그 변환을 위해서는 정해진 양식이 있어야 하고, 하나의 규칙을 정하고 자료를 입력해야 한다.
이러한 데이터의 준비과정은 SPSS 혹은 SAS 와 같은 통계 프로그램으로 분석할 수 있도록 하기 위한 것이다.
*데이터 코딩(data coding)
수집된 자료를 통계 프로그램이 읽어드릴 수 있는 수적인 형태로 일정한 규칙에 따라 정리하는 과정
https://me2.do/FfMPkFja
코딩을 하기 위해서는 먼저 코딩양식을 정해야 한다.
석사논문이나 간단한 학술지의 경우, 설문의 양이 많지 않고, 많은 사람이 보는 것이 아니므로 따로 코딩양식이 없이도 간단하게 엑셀파일에 정리할 수 있다.
(바로 통계분석 프로그램에 직접 입력할 수도 있으나, 자료가 개방형이라면 한글을 포함하고 있는 경우도 많아서 일단 엑셀에 하고 수정하는 것이 더 효율적이다. 그리고 엑셀이 아닌 워드나 아래한글로 입력을 할 경우에는 ASCII 코드로 인식될 수 있도록 .txt로 파일을 저장해야 하므로, 이런 모든 사항을 고려했을 때, 그냥 엑셀에 하는 것이 좋다.)
예를 들어, 학위논문을 준비하는 경우에는 설문지에 응답된 내용을 보고,
엑셀에 데이터를 정리하는 것이 일반적이다.
첫 행에 자료의 변수를 쭉 입력해 놓고,
첫 열에 자료의 ID를 만들어 넣고,
쭉 데이터를 입력한다.
(설문지를 입력하는 경우라면, 필자는 행/열 을 전환해서 데이터 입력을 모두 한 후에 다시 행/열 전환하여 분석한다.
설문지코딩 해본 사람은 알겠지만, 데이터를 아래방향으로 입력하는 것이, 오른쪽방향으로 입력하는 것보다 훨씬 빠르기 때문이다.)
위에서 언급한 데로,
간단한 자료는 별다른 설명 없이도 코딩할 수 있지만,
국가통계자료나 대규모 자료의 경우는 연구에서 변수에 대한 상세한 내용을 포함하여, 분석하고자 하는 다수연구자의 이해를 돕기 위해 코딩하는 규칙을 기록해 놓은 #코드북 (codebook)을 만든다.
(개인연구자도 아래의 순서대로 본인의 설문지 척도에 맞도록 코딩양식을 정해야 하긴 한다.
마구잡이로 코딩을 했을 경우 통계 분석을 할 수 없을 수도 있다.)
설문지 만들기와 척도에 대해서는 아래의 포스팅 내용을 참고하고 코딩을 하는 것이 좋다.
https://blog.naver.com/privatalab/221881087409
코드북에서는
변수의 항목,
측정방법,
각 항목의 형태(숫자, 문자 등),
각 항목의 응답척도(명목, 서열, 구간, 비율 척도 중 어느 것으로 측정되었는지, 이러한 척도가 5 점, 7 점, 아니면 다른 타입의 척도인지),
각 항목에 대하여 어떻게 수의 형태로 코드를 부여하였는지가 포함 된다.
예를 들어,
측정 항목이 ‘매우 좋음’에서 ‘매우 나쁨"까지 7 점 리커트 척도를 가지고 있다면, 1 을 ‘매우 좋음’, 4 를 ‘중립’. 7 을 ‘매우 나쁨’으로 코드를 부여해야 한다.
직업군과 같은 명목형 자료(nominal data)는 코딩양식에 의해 숫자의 형태로 코드가 부여되어야 한다. 1 을 제조업, 2 를 소매업, 3 을 금융업, 4 를 의료업 등이다.
나이, 수입, 혹은 시험 점수와 같은 비율척도자료(ratio scale data)는 응답자들에 의해 코드가 부여된다.
위의 그림은 고령화연구패널의 코드북이며,
국가에서 대규모로 이루어지고 있는 패널조사이므로 많은 연구자들을 위해 데이터와 코드북을 제공하고 있으니 아래의 포스팅에서 정보를 확인할 수 있다.
https://blog.naver.com/privatalab/221813888103
그 외에도 데이터 코딩을 할 때에 고려해야 하는 사항이 몇 가지 있다.
맨 처음에 언급했던데로 데이터의 첫열에 응답자를 구분하기 위한 ID가 있어야 한다. 일련번호가 있어야만 자료를 정렬하여 쉽게 확인할 수 있으며, 오류를 파악하기도 쉽다.
범주형 변수의 경우에 모두 숫자로 변환한다.
(예를 들어, 남자는 1, 여자는 2로 정해놓도 코딩한다. 엑셀에 첫행의 변수 이외에 문자는 입력하지 않는다고 생각하고 코딩해야 한다. 통계를 의뢰하는 연구자들 중, 설문내용을 다 한글로 입력을 하고, 엄청나게 오타를 내서 일을 몇배로 하게 하는 경우도 있다. 코딩하기 전에 꼭 이러한 내용은 알고 시작하면 시간이 절약된다.)
다중응답문항은 코딩을 할대에 , 각 항목을 하나의 변수로 취급해서 그 값을 모두 입력해야 한다.
그 입력 방법은 이분법(0,1로 입력하는 방법)과 중복법(선택한 항목의 번호를 그대로 입력하는 방법)이 있으니, 이러한 문항이 있는 경우에는 통계책들이나 다른 코드북을 참고해서 입력하도록 한다.
그리고 논문에 대한 기초가 부족하다고 생각되면, 논문의 기초를 빨리 배울 수 있는 아래의 인강을 들어보라고 추천한다.
[논문통계 SPSS] ROC 커브 (Receiver Operating Characteristic curve)_AUC 판정기준 (0) | 2023.10.13 |
---|---|
[논문통계] 논문에서 유의수준 P값의 의미가 도대체 뭘까? (0) | 2023.10.11 |
[실전논문] 논문 통계분석을 의뢰해야하는 대학원생, 또는 연구원이 알아야하는 주의사항 (0) | 2023.03.16 |
[논문통계 용어] 연구에서 모집단(populatiin)과 표본(sample), 모수(parameter)가 의미하는 것은 무엇일까? (0) | 2023.02.21 |
#Statistics 연구하고 논문쓰는 우리가 통계학을 알아야하는 이유는 뭘까? (0) | 2023.02.19 |