본문 바로가기

심리통계학

더미변수(dummy variable)란?

  더미 변수(dummy variable)는 질적 변수를 통계 분석에서 사용할 수 있도록 범주형 데이터를 0과 1로 변환한 변수를 말한다. 주로 다중회귀분석에서 사용되며 질적변수양적변수로 변환하는 것을 의미한다. 성별을 예시로 들어보자면,  질적변수인 성별인 남성과 여성을, 각각 0과 1로 코딩하여 양적변수로 변환하는 것이다.  로지스틱 회귀분석은 설정을 통해 편하게 코딩을 할 수 있기에 이러한 절차를 거칠 필요는 없다.

 

  회귀분석 과정에서 명목척도인 독립변인이 종속변인에 어떠한 영향을 미치는지에 검정하고자할 때,  코딩을 하지않으면 SPSS의 경우, 자동으로 명목형변수를 연속형변수로 해석해버리기에 오류가 발생한다. 가령, 학력이라는 명목형 변수, 초졸,중졸,고졸,대졸,대학원졸 5가지가 있다고 생각해보자. 이 명목형 변수는 질적인 변수이기에 서로간의 간격의 차이가 없음에도 불구하고, 더미변수를 코딩하지않는다면 자동적으로. 1,2,3,4,5에 대해 연속적인 계산을 해버린다. 그렇기에 회귀분석과정에서 명목척도의 변인은 더미변수 코딩 과정을  반드시 거쳐야한다 볼 수 있다.

 

  예를 들어 애착유형 , 아동의 성별,  주양육자의 스트레스, 주양육자의 우울이 아동의 반사회적인 경향에 어떻게 영향을 미치는지에 대한 다중회귀분석에서 더미변수를 한다고 하면, 여기에서 애착유형 (1.안정 2.불안 3.회피 4.혼란) 아동의 성별(1. 남자 2.여자)은 명목척도이기에 더미변수로 변환하는 과정을 거쳐야한다. 

 

 spss 20까지는 자동으로 더미변수를 만들 수 없어 복잡한 과정을 거치지만, spss 21 이상부터는 버튼 세 번만 누르면 바로 더미변수로 설정이 가능하다. (jamovi의 경우, 자동으로 더미변수 코딩을 해준다.)

 

spss 21의 더미변수 변환

 

 

반응형