확인적 요인분석(Confirmatory Factor Analysis, CFA)은 이론적으로 정의된 잠재 요인과 관측 변수 간의 관계를 검증하는 통계 기법이다. 설문지나 측정 도구가 특정 요인 구조를 잘 반영하고 있는지 평가하며, 주로 기존 이론의 타당성을 검증하는 데 사용된다. 각 문항(관측 변수)이 해당 요인에 얼마나 강하게 적재되는지를 나타내는 적재값과 모델 적합도를 분석하는데 목적이 있다. 이를 통해 측정 도구의 신뢰성과 타당성을 확보하고 연구 결과의 해석 가능성을 높일 수 있다.
위의 내용은 챗GPT에서 확인적 요인분석에 대해 설명을 요구하면 답하는 내용이다. 워낙 원론적인 내용이기에 이해하기 어려울 수 있겠다는 생각이 들었다. 필자도 처음 들었을 때 뭔 소리인가 했다. 하지만 예시를 들어보면 생각보다 어렵지않다.
당신이 연구를 위해 Big 5 성격유형을 독립변인으로 설정하여 외상 후 울분에 영향을 미치는 요인을 회귀분석으로 확인하려고한다. 하지만 사용한 척도의 문항이 적절히 구성(construct)되어 있고 요인 구조를 충실히 반영하고 있는지를 확인하는 작업이 필요하기에 확인적 요인분석을 사용하는 것이다. 정말 쉽게 이야기하자면, 확인적 요인분석이란, 당신이 하는 연구에서 사용하는 척도지가 타당한지 검증하는 과정이다.
여기서 중요한 점은, 잠재요인의 수보다 관측변수가 최소 5배가 되어야하고, 10배이상 정도가 연구로서 바람직하다. 예를 들어 Big 5 설문지문항이 35개라면, 설문대상자가 최소 175명은 되어야한다는 뜻이다. 바람직한 조사자는 350명 이상이 되어야할 것이다.
확인적 요인분석(CFA)은 이미 만들어진 척도가 각 구성 개념(construct)을 제대로 측정하고 있는지를 검증하는 과정이다. 예를 들어, Big 5 성격 척도를 살펴보자. Big 5는 신경성, 외향성, 개방성, 우호성, 성실성이라는 5가지 구성 개념으로 이루어져 있다. 각 구성 개념을 측정하기 위해 7개의 문항이 있다고 가정하면, 확인적 요인분석은 이 문항들이 해당 구성 개념을 얼마나 잘 대표하고 있는지를 평가한다. 즉, 각 문항이 올바른 그룹에 속해 있는지를 확인하는 것이 확인적 요인분석의 핵심이라고 볼 수 있다.
앞서 이야기했듯이, 확인적요인분석은 잠재 요인과 관측 변수 간의 관계를 검증하는 통계기법이라고 설명하였다. 잠재요인이란 직접적으로 관찰하거나 측정할 수 없는 심리적, 추상적 개념 또는 특성을 뜻한다. 해당 예시에서는 잠재요인은 Big 5의 척도, 관측변수는, 실제로 연구한 500명의 척도에 대한 설문데이터가 될 것이다.
다시말해 잠재 요인은 척도이고, 관측 변수는 500명의 척도 데이터를 의미한다. 확인적 요인분석은 이 둘 간의 관계를 검증하는 과정이다. 정리하자면, 내가 측정하려는 척도의 요인구조(신경성,외향성,성실성,우호성,개방성)가 실제 측정된 500명의 데이터에 적합한지를 확인하는 작업이다. 아쉽게도 확인적 요인분석은 spss로는 불가능하다.(탐색적 요인분석만 가능), 그래서 Amos를 사용해야하는데, 개인이 사용하기에는 너무 비싼 가격이므로, 무료 소프트웨어인 jamovi를 사용하여 확인적요인분석이 어떻게 이루어지는지 알아보자.
5가지 차원(신경성,외향성,개방성,우호성,성실성)의 35개의 문항이다. 1~7번까지는 신경성, 8번~14번까지는 외향성, 15~21은 개방성 등 이런식으로 가상 데이터를 생성하여 실시해보도록하겠다.
상단의 요인 - 확인적 요인분석을 클릭한다.
jamovi에서 확인적 요인분석방법 1
그 다음해야할 것은 "새 요인 추가"를 통해, 요인을 추가한다. 해당 예시의 big 5에서는 5가지 차원(신경성, 외향성, 개방성, 우호성, 성실성)이 있으므로 4개의 요인을 더 추가하여 5개의 요인으로 만든다.
그리고 다음과 같이 해당의 차원을 측정하는 문항을 넣어준다. 예를 들면, 신경성에는 신경성을 측정하는 문항 1~7을 투입한다. 이런 식으로 그룹화하여 총 5가지 요인이 만들어지도록 하면 된다.
다음은 잔차 공분산과, 옵션, 추정값의 옵션이다. 척도에 대한 확인적 요인분석만 한다면 딱히 신경 쓸 것은 없다. 공분산 값에 알고싶다면, 잔차 공분산에서 문항을 이동시켜 문항들 간의 잔차 공분산 관계를 분석할 수 있다.
여기에서도 딱히 건드리지않아도 기본검정이 가능하다. 다만 시각적으로 요인분석의 결과를 확인하고싶다면 도표- 경로모형을 체크하면 된다.
여기서 추정값이란 문항이 요인을 얼마나 잘 대표하는지에 대한 수치다. 보통 0.5 이상이면 요인을 잘 대표한다고 해석한다. 예를 들어보면, 신경성 문항 1의 경우 0.84가 나왔으므로 그 요인에 대해 잘 대표한다고 볼 수 있다. 반면 성실성 문항 5를 보면, -0.006의 수치로, 0.5 이하이기에 성실성을 대표하는 문항이라 볼 수 없을 것이다. 이런 문항에 대해서는 연구자가 제거하면 된다.
요인추정값은 각 요인 별로 상관관계를 의미한다. 대부분의 요인 간 상관관계는 약한 수준(0.1~0.3)으로, 요인들이 독립적인 성격을 가지고 있음을 뜻한다. 0.3~5까지는 중간 정도의 관계이며, 0.5 이상부터는 강한관계를 뜻한다. 당연히 각 요인(신경성, 외향성, 개방성, 우호성, 성실성)은 다른 심리적 구성을 측정하므로 추정값이 낮아야할 것이다.
모형 적합도에 대한 설명이다. 첫 번째로 보이는 카이제곱의 값은 적합도 지수로 잘 사용안되니까 잊어도 된다. 자유도는 총 표본값 500명에 대한 요인 부하량, 요인 간 상관관계, 잔차 분산,매개변수를 포함하여 가정하여 550의 자유도 값이 나온 것이다.
적합도를 보면, 비교적 적합지수와 TLI가 있다. 보통 0.9의 값을 보이면, 적절하다고 해석한다. 근사치 제곱 평균의 오차의 90% 신뢰구간(RMESE)는 값이 작을 수 모델에 적합하다는 것을 의미한다. 보통 0.05 이하가 적합하고, 0.10이상은 부적합하다고 해석하면 될 것이다.
다음은 도표- 경로모형을 체크하면 볼 수 있는 구조방정식 모형인데, jamovi 기본 연구방법 툴로는 수정도 안되고, 제대로 나온 그림도 아니다. 여기에 대해서는 추후에 다루도록하겠다.
가상 데이터를 만드는 데 3시간이나 걸렸다. 원래 요인분석에 대해 포스팅할 생각은 없었지만, 시중의 이론서와 개념서가 너무 어렵게 설명되어 있어 공부하는 이들에게 좀 더 쉽게 전달하고 싶은 마음이 생겨 글을 쓰게 되었다.
해당 예시의 데이터파일이다. 스스로 한 번 연습을 해보는 것이 머릿 속으로 백 번 생각하는 것보다 더 나을 것이다.
요약
1. 이미 정의된 이론적 요인 구조가 데이터를 잘 설명하는지 검증하는 분석 방법이다.
2. 설문 문항이 특정 요인을 얼마나 잘 측정하는지 확인하거나, 척도의 구조적 타당성을 평가할 때 사용한다.
3. 사전에 가설로 설정된 요인 구조(문항-요인 간 관계)가 있어야 하며, 이를 검증하기 위한 데이터가 필요하다.
4. 요인구조의 타당성을 검증하기 용이하나, 데이터의 품질과 표본크기에 민감하다(표본 수가 너무 적거나 응답이 부실하면 해석이 안됨.)
'심리통계학' 카테고리의 다른 글
판별분석(Discriminant Analysis) (0) | 2025.02.05 |
---|---|
t검정(t-test) (0) | 2025.02.02 |
심리학 연구에서 다중회귀분석과 로지스틱회귀분석 (0) | 2025.01.22 |
구조방정식(Structural Equation Modeling, SEM)이란 무엇인가? (0) | 2025.01.22 |
로지스틱 회귀분석(logistic regression) (0) | 2025.01.21 |