심리통계학

다중회귀분석(Multiple Regression Analysis) - 위계적 회귀분석(Hierarchical Regression)

페어베어 2025. 3. 12. 17:40

https://321fsdw.tistory.com/49

 

다중회귀분석(Multiple Regression Analysis) - 단계적 회귀분석(Stepwise Regression)

https://321fsdw.tistory.com/48 단순회귀분석(Simple Linear Regression)상관계수는 두 변수 간의 선형적 관계만을 검증하는 데 그치지만, 회귀분석은 독립변수와 종속변수를 설정하여 이 둘의 인과관계를 분

321fsdw.tistory.com

앞서 포스팅한 단계적 회귀분석은 독립변수를 모두 투입하여 연구모형을 분석한다. 즉, 모든 독립변수를 한꺼번에 포함한 상태에서 최적의 조합을 찾아 회귀모형을 구축하는 방식이라 볼 수 있다. 자세한 것은 위의 링크를 참고하면 된다.

 

  위계적 회귀분석은 연구자의 경험적 근거를 바탕으로 영향력이 큰 변수를 하나씩 투입해가면서 독립변수 중에서 연구모형에 대한 설명력을 단계적으로 평가하는 방식이다. 연구자는 변수 간의 이론적 중요성을 고려하여 투입 순서를 결정하며, 각 단계에서 추가된 변수가 종속변수에 미치는 설명력의 증가를 확인할 수 있다. 다시 말해, 각 독립변수가 기존 모형에 기여하는 정도를 평가하고, 변수의 상대적 중요성을 비교하는 방식이라 볼 수 있다.

 

실제 심리학연구에서 활용된 예시는, 사별경험자의 자살위험도 예측요인 검증: 사별유형을 중심으로 한 15개월 종단연구(엄희준 2024) 가 있다.  해당 논문에서는 사별유형에 따라 비트라우마사건 사별집단과 트라우마사건 사별집단으로 나누어 집단별로 자살위험도에 영향을 미치는 인구사회학적 특성(성별, 연령, 종교유무, 고인과의 관계, 거주지, 거주형태)과 지속비애, 사회적지지, 우울을 15개월의 간격을 두고 종단적으로 확인하였다.  연구자의 판단에 의해 인구사회학적 특성을 위계적으로 변수를 추가하여 투입하면서 자살위험도에 어떻게 영향을 미치는지, 그리고 트라우마집단과 비트라우마집단과 어떤 차이가 있는지 확인하였다.

 

해당 도표는 각 독립변수가 종속변수인 자살위험도 (시점2)에 어떤 영향을 미치는지 단계별로 추가하면서 설명력 변화를 평가하는 방식으로 결과를 제시했다.  정리를 하면 다음과 같다.

단계 독립변수 종속변수
1 자살위험도(시점1) 자살위험도(시점 2)
2 자살위험도(시점1) +인구학적 통계
3 자살위험도(시점1) +인구학적 통계 + 지속비애 +사회적지지
4 자살위험도(시점1) +인구학적 통계 + 지속비애 +사회적지지 + 우울

 

처음에는 자살위험도(시점1)로만 분석을 하다가 단계가 늘어날 수록 연구자가 임의로 설정한 순서에 따라 독립변인을 추가하는 방식이라는 것을 알 수 있다. 즉, 분석결과를 각 단계별로 해석해야한다는 것을 알 수 있다. 

 

 앞서 포스팅에서 싶이 B(비표준화 된)와 β(표준화된)는 회귀계수이고  SE는 표준오차라는 것을 설명하였다. 회귀계수의 의미는 독립변수가 종속변수에 미치는 영향을 원래의 단위(unit)로 나타낸 값이다. 예를 들어,  표 6에서 step3의 종교유무의  β 값은 .096이다. 즉, 종교유무(무교=0, 종교 있음=1)라는 독립변수가 자살위험도(종속변수)에 미치는 표준화된 영향이 .096이라는 뜻이다.

 

예를 들어 다중회귀분석을 통해 외상 후 성장에 미치는 변인에 대해 자기자비, 회복탄력성, 성인애착 3가지 변인으로 설정하고  위계적 회귀분석을 한다면, 다음과 같은 과정이 이루어진다. 

 

 

분석(A) - 회귀분석(R) - 선형(L) 을 클릭한다.

 

앞서 외상 후 성장에 미치는 변인에 대해 자기자비, 회복탄력성, 성인애착 3가지 변인으로 설정하고  위계적 회귀분석을 실시한다고 하였다. 해당 예시에서는  성인애착, 회복탄력성, 자기자비의 순서대로 독립변수를 하나씩 투입시킨다. 

 

변수를 한 개씩 투입하고 다음(N)을 누르고 이 작업을 3번 반복하면 된다. 그 후에  통계량(S)를 클릭한다.

 

추정값과 모형적합이 기본값으로 설정되어있는데, 통계치의 추가정보를 얻기 위해 다음과 같이 설정한다. 특히 공선성 진단은 꼭 해야한다.  Durbin-Watson 통계량(DW)은 회귀분석에서 잔차(오차항)들의 자기상관(autocorrelation)을 검토하기 위한 지표로, 잔차들이 독립적이어야 한다는 가정을 검토하는 데 사용된다. 

 

 

  모형요약부터 설명하겠다.  모형1은 성인애착, 모형2는 성인애착+회복탄력성, 모형3은 성인애착+회복탄력성+자기자비다. 그리고 각 모형의 단계별로 R와 R제곱 수정된 R제곱이 나오는데, 여기서는 수정된 R제곱을 확인하면 된다. 각각 .246, .376, .635의 값이 나왔는데 각각 독립변인이 종속변인에 영향을 미친 설명력의 값이다. 모형의 3의 경우 .635가 나왔으므로 최종적인 모형3에서는 독립변인이 종속변인에 영향을 미친 영향력이 63.5%이다. 

  분산분석은 연구목적에 맞게 회귀식이 세워졌는지 변별하는 기준표이다. 다른 것은 볼 필요 없고, 유의확률 값을 보면 된다. 각각 .00이 나왔으므로 통계적으로 유의하다.

 

계수와 상수에 대한 유의확률을 나타낸 값과 VIF값만 보면 된다. 유의확률은 .00이므로 유의하고 VIF는 1에 가까우므로 다중공선성에 문제가 없다고 결론을 지을 수 있다.

 

  공선성 진단은 상태지수를 중점으로 봐야한다.  고유값은 독립변수의 변형값에 대한 요인분석을 통해 값이 구해지고 산출된 고유값에 대해 변형하여 상태지수의 결과값을 도출한다. 상태지수는 15를 넘지않아야 다중공선성이 없다고 판단하는데,   해당 도표에서는 모형3의 차원4(절편)의 상태지수값이 16.357로 모형의 독립변수들과 절편 간 강한 선형 의존성이 존재할 수 있음을 의미한다. 

 

공선성에 문제가 있었지만, 전체적으로 변수 3개가 모두 투입되었을 때, 회귀식의 설명력이 제일 높았음을 알 수 있다. 즉, 성인애착, 회복탄력성, 자기자비의 설명력이 커짐에 따라 외상후 성장의 수치가 높아짐을 알 수 있다.

 

 

해당 예시의 데이터

PTG_Data__Likert_Scale_.csv
0.00MB

 

반응형