불성실한 응답을 제거하지 않으면 어떻게 될까?
아주 당연한 말이지만, 연구의 타당도와 신뢰도를 저해한다. 웩슬러 지능검사는 검사 과정에서 정확하게 불성실 응답을 관찰(검사자가 전문성이 있다는 가정하에) 할 수 있다. 예를 들어, 2시간 가까이 되는 검사과정에 있어 지루함을 견디기 힘든 특성을 가진 아동은 토막짜기에 있어 성의 없게 토막을 맞추는 것을 눈으로 직접 관찰할 수 있다. MMPI나 PAI 같이 문항이 많은 검사들은 응답하는데 있어 피검자들이 피로할 것을 예측했기에 비일관성 척도를 넣어서 불성실 응답이 통계적으로 수량화되어 비일관적인 응답을 했다는 것을 측정할 수 있다.
대규모 표본조사의 경우, 보통 인터넷을 통해 표집하는 경우가 일반적이다. 물론 편리하기는 하다. 그러나 자기-보고형 조사에서의 불성실 응답(IER)의 원인, 탐지, 예방 :개관 및 향후 연구 제안* (장재윤 외 2024)에서는 다음과 같은 문제점이 발생할 수 있다고 한다.
자기 보고형 측정에서의 고질적인 문제는 다음 두 가지이다. 하나는 전통적으로 주목해왔던 것으로 사회적 바람직 (social desirability) 응답 또는 인상관리(impression management)와 같은 거짓 응답(faking)이며, 다른 하나는 불성실 응답(IER)이다.(장재윤 외 2024)
특히 인터넷 설문조사의 경우 불성실한 응답은 피할 수 없는 고질적인 문제다.
이와 같이 최근에도 보상을 위해 의도적으로 불성실하게 문항을 응답하는 경우가 있었다. 동일 아이피가 45개가 찍히니 그 아이피에 대해서 응답자의 데이터를 소거하면 그만이지만, VPN을 사용해서 매크로를 돌렸다면 탐지하기가 힘들 것이다. 그렇기에 통계적 방법으로 불성실응답에 대해 소거해야한다.
고전적인 방법으로는 롱스트링이 있다. 롱스트링은 같은 문항에 연속적으로 동일하게 답했을 경우, 불성실하게 답했다는 것을 알아낼 수 있지만, 무작위로 답한 것에 대해서는 탐지가 불가능하다. 사분위범위 방법은 롱스트링의 단점을 보완하고 임계치의 하한,상한값을 정해서 이상치를 발견할 수 있지만, 단일 문항만 고려하고 다변량적인 측면을 고려하지 못한다는 단점이 있다. 그렇기에 위의 단점을 모두 보완할 수 있는, Mahalanobis distance를 사용하는 것이 적절하다.
https://321fsdw.tistory.com/73
마할라노비스 거리(Mahalanobis distance)
인도 통계학의 아버지, Prasanta Chandra Mahalanobis가 1936년에 발표하였다. Mahalanobis distance보다 대규모 표본조사의 방법론을 집대성했다는 것이 더 유명하다. 여담이지만, 인류학 연구에서 두개골 측
321fsdw.tistory.com
해당 예시에서는 3가지 척도(PTQ, ERRI, CBI)를 사용해서 300명에게 응답을 받았다. 여기에서 불성실한 응답을 찾을 경우의 결과가 어떻게 바뀌는지 알아보도록 하겠다.
불성실한 응답을 찾아내는 통계방법을 사용하지 않고, PTQ, ERRI, CBI의 각각 크론바흐 알파계수값이다. 여기에서 Mahalanobis distance를 사용해서 불성실한 문항을 제거하면 어떤 결과가 나올까.
우선 spss를 사용하여 MAH_1 값을 도출하여 이상치에 해당하는 데이터를 찾아서 제거하는 과정을 거친다. 50df에서 0.05 수준에서 카이제곱 분표값은 79.48998이므로, 이 값 위로 해당하는 응답자의 데이터를 모두 제거한다. 284~300번까지의 응답자가 79.49를 초과하므로 이 데이터를 모두 삭제하면 될 것이다.
불성실한 응답을 제거하고 난 뒤의 크론바흐 알파 값이다. 각각 신뢰도가 상승한 것을 알 수 있다. 마찬가지로 요인분석을 하는 경우의 검정에도 더 신뢰롭고 타당한 연구의 결과를 얻을 수 있다.
해당 파일의 데이터파일. 확인적, 탐색적 요인분석을 해봐도 값이 유의미하게 변하는 것을 알 수 있다.