심리통계학

랜덤포레스트(Random Forest)

페어베어 2025. 4. 7. 13:54

1. 랜덤포레스트란?

여러 개의 의사결정나무(decision trees)를 기반으로 하는 앙상블 학습(ensemble learning) 기법으로, 각각의 트리가 서로 다른 데이터 샘플과 변수 집합을 활용해 독립적으로 학습한 후, 이들의 예측 결과를 집계(예: 다수결, 평균)하여 최종 예측을 도출하는 비모수적(non-parametric) 통계 모형이자 기계학습 기법이다.  본 기법은 단일 결정트리의 과적합(overfitting) 문제를 보완하고, 복잡한 변수 간의 상호작용 및 비선형 관계를 효과적으로 포착할 수 있다는 점에서 고차원 자료(high-dimensional data)에 강건한 예측력을 제공한다.

 

  다음은 GPT의 랜덤포레스트의 정의이다. 얼핏 보면 무슨 말인지 이해하기가 어렵다. 차근차근 설명하자면, 앙상블 학습이란 다수추론과정에 의해 서로 다른 예측 결과를 종합함으로써, 단일 모델보다 더 높은 일반화 성능과 예측력을 확보하는 학습 전략이다.  예를 들어, 단일 결정트리는 불안정할 수 있으나, 랜덤포레스트는 다수의 결정트리를 결합함으로써 예측력을 높일 수 있다. 

  랜덤포레스트는 주로 배깅을 사용한다. Bootstrap Aggregating의 줄임말로, 데이터를 무작위로 여러 번 뽑아  각각 모델을 훈련시키고, 그 결과를 종합해서 최종 예측을 도출하는 방법이다.  spss macro의 부트스트래핑 방법과 똑같이 복원추출의 과정을 거치지지만 랜덤포레스트는 모델의 예측력 향상과적합 방지에 목적을 둔다. (spss macro는 통계적 신뢰구간 추정과 오차 안정화에 목적을 둠)

 

2. 장점

1) 비모수적 통계모형이기에 정규성 등분산성, 선형성을 가정하지 않아도 된다.   의사결정 트리는 데이터 분할 기반으로 다수의 예측을 종합하는 방식이기 때문에, 변수 간 선형성이나 분포의 특정한 형태에 의존하지 않고도 안정적인 예측이 가능하다.

 

2). 분류(classification)와 회귀(regression) 문제 둘 다 적용 가능하다. 즉, 변인설정에 있어 로지스틱회귀분석과 회귀분석이 가능하다는 것이고 범주형 변인과 연속형 변인 모두 사용이 가능하다.

 

3) 결측값에 있어 유리하다.  의사결정과정이기떄문에 응답하지 않은 문항이 있어도 해석이 가능하다. 다만, 너무 큰 결측값은 편향을 일으킬 수 있기에 제거한다. 

 

4) 변수 간의 독립성을 가정하지 않아도 되기에 전통적인 다중회귀분석에서 일어나는 다중공선성의 문제가 해결이 가능하다.  또, 변인 간의 상호작용을 파악할 수 있다는 장점이 있어, 해석을 할시에 예측변인 간의 결합된 효과를 해석할 수 있다. 예를 들어  자살의 예측변인인 우울, 공격성, 불안이  자살생각에 미치는 영향에 대해 다중회귀분석을  실시하였을 때는 각각의 변인이  자살에 미치는 영향과 설명력을 알 수 있지만, 변인 별로 다중공선성도 고려해야하고, 상호작용 효과를 알 수가 없지만, 랜덤포레스트는 우울+공격성, 불안+우울  이런 식으로 결합된 효과를 확인할 수 있는데 장점이 있다.  그리고 예측변인이 많아도 데이터가 많아도 사용이 가능한 것이 진짜 큰 장점이다.  

 

5) 비선형적 관계가 파악이 가능하다. 

랜덤포레스팅의 구조가 얼핏보기에는 다중회귀분석과 비슷해보이지만 결정적인 차이가 있다. 바로 비선형적인 관계도 파악할 수 있다는 것과, 통적인 회귀분석에서는 하나의 독립변수가 증가할 때 종속변수도 일정한 비율로 증가하거나 감소하는 관계를 파악하는 선형관계를 파악할 수 있다. 예를 들어 우울점수가 1점 상승할 때, 자살생각점수가 0.5점씩 증가하는 선형관계를 파악할 수 있는 것이다.

우울점수에 따른 자살생각점수의 선형적 그래프

그러나 회귀분석은 비선형적인 관계를 탐지할 수 없다.  비선형이라는 것은 변수 간 관계가 직선이 아니라 곡선이거나,
어떤 범위에서는 영향이 없다가, 특정 시점부터 급격히 변하거나 꺾이는 관계를 말한다. 예를 들어 스트레스 점수가 어느 정도 상승해도 자살생각에 영향이 없다가 어느 임계치를 넘어서면 자살 위험이 급격히 증가하는 것이다.

스트레스점수에 따른 자살생각의 비선형적 그래프

랜덤포레스트의 장점은 이러한 비선형적인 관계도 탐지가 가능한 것 있다. 

 

 

3. 단점

1) 변수의 영향 방향(음의 값인가 양의값인가), 얼마나 예측값을 변화시켰는지, 통계적으로 유의한지 확인할 수 없다.  해결방법이 없는 것은 아니다. 변수에 따라 로짓, 다중 회귀를 따로 돌려서 설명값을 확인하면 되는것이니 연구과정을 두 번 거친다면 좀 더 신뢰로운 결과를 도출할 수 있을 것이다. 실제로 이렇게 하는 연구를 본 적은 없는데, 가능할 것으로 보인다.

 

2) 데이터 처리에 유리하지만 램누수가 장난이 아니다.(똥컴이면 사용불가) 실제로 가상데이터를 만들어서 파이썬으로 랜덤포레스팅을 돌려보니 메모리아웃 메세지가 떴다. 8기가로는 어림없고, 데이터의 양에 따라 다르지만 최소 16기가, 넉넉잡아 32기가의 램이 필요할 것으로 보인다.

 

 

 

 

최근 들어서 심리학연구에서 쓰이는 추세인데, 구조가 생각보다 간단하다보니 연구에 활용하기는 어려울듯하다. 좀 더 복잡한 구조를 활용하여 정신의학에서는 활발하게 연구하고 있지만 심리학연구 논문은 손에 꼽을 수 있을 정도로 적다. 다중공선성을 생각하지 않고 변인 간의 결합된 해석이 가능해서 한 번 활용해 볼법하다.  

반응형