이 번 글은 좀 테크니컬하니 통계에 관심 없는 분들은 패스하시길.
KBS 보도 관련 더 언급 안할려고 했는데, 이 기회에 로지스틱 회귀분석을 수행하는 분들과 통계 지식에 대해서 생각해보는 것도 괜찮을 것 같다는 생각이 들어서 (사실은 지 성질 지가 못이기고) 한 번 더 쓰기로.
대전제는 모든 관찰과 통계는 나름의 오류가 있다는 것. 어떤 발견은 실제 경향이고 어떤 발견은 우연히 자료가 튀는 것이다. 한 개 조사나 연구로는 발견의 옥석을 명확하게 가리기 어렵다. 그래서 <신호와 소음>이라는 책도 나오지 않았던가. 발견을 받아들이되 비판적 회의적 시각을 거두어서는 안된다. 다른 한 편, 비판적 회의적 시각이라고 별 근거도 없이 발견을 무시해서는 안된다. 방법론을 잘 모르면 뭐가 발견이고 뭐가 아닌지 판단할 근거를 찾기 어렵다. 잘못하면 편협한 통계 지식으로 발견을 무시하기 쉽다.
이 번에 문제가 된 그래프에 대해서 제기된 몇 가지 의심에 대해서 살펴보고 그런 의심이 합리적인지 아닌지 로짓 분석의 특징을 생각해보자.
1.
가장 많이 얘기된게 X축, 그러니까 주관적 계층인식의 분포와 로짓 분석의 관계에 대한 것이다. 최상위권 (즉, 9,10) 응답수가 적어서 공동체 인식에 대한 예측치를 믿을 수 없다고 한다. 그러면 8, 9, 10 응답자를 전부 7로 리코딩하면 결과가 변할까? 그럴 가능성이 낮다. 구체적인 수치는 바뀌겠지만, 경향적으로 계층인식이 높은 20대남들이 타인을 돕겠다는 의향이 낮아지는 결과가 바뀌지 않을 가능성이 더 높다 (전혀 없다는 얘기는 아니다).
실체적인 해석을 생각해보자. 주관적 계층인식 8, 9, 10 응답을 절삭하고, 7까지의 분포만 봐도 주관적 계층인식과 공동체 인식의 관계, 다른 집단과의 비교의 결론이 바뀌지 않는다. 8, 9, 10에서 타집단과 20대남의 격차가 그 이하 계층인식보다 좀 더 벌어지지만, 그 변화의 marginal effects에 관심이 있는게 아니지 않은가. 달리 말해, 8-10의 응답을 제외하고 봐도 20대남성에서 주관적 계층인식과 공동체 인식이 여전히 음의 상관관계를 가진다고 얘기할 수 있다.
X축 분포 문제에 대해서는 더 복잡한 얘기가 있는데 아래에 좀 더 얘기하겠다.
2.
다음은 outliers 문제. 일부에서는 9, 10 응답자들이 응답 패턴이 특이해서 그 때문에 전체 로짓 분석의 경향이 바뀌는 outliers 효과를 의심한다. 하지만 Y 응답이 0, 1 더미변수라는 점을 기억해야 한다. Y 응답 자체에서 outlier라는게 없다. 변수의 특성 상 몇 명의 특이한 응답으로 전반적인 경향이 바뀌기 어렵다. 그렇다고 X 응답에 아웃라이어가 있는 것도 아니다. 9, 10 응답자의 응답 패턴이 특이하게 돕지 않다에 몰려 있더라도, 9, 10 응답자의 숫자가 문제제기하는 분들이 지적하듯 매우 작으면, 로짓분석의 계수추정치를 완전히 바꾸기 어렵다.
잘 이해가 안되면 가상적인 산포도 그래프를 그려서 LPM으로 생각해보면 금방 이해가 될 것이다. 아웃라이어 문제는 전체 N의 숫자가 작을 때 더 커지는데, 응답자 300명의 더미 종속변수에서 아웃라이어 문제를 고민하는 것은 그리 생산적이지 않다. 만약 20대남자들의 3-7사이의 응답자들은 다른 집단과 유사한 경향(=우상향)을 띄는데, 9, 10 응답자만 특이했으면, 로짓분석의 계수추정치가 0으로 플랫하게 나올 가능성이 크다.
요약하면, 종속변수의 특징과 작은 9, 10 응답자의 숫자, 로짓분석의 특징을 모두 동시에 고려하면, 왠만해서는 계층인식과 공동체 인식의 부정적 상관이 바뀌지 않을 것으로 추정할 수 있다.
3.
그럼 이 번 결과가 잘못되었을 가능성은 없는건가?
어떤 조건에서 이 결과가 이상하게 나올 수 있을지 생각해보는 것도 좋은 사고실험이 될 수 있다. 의외로 20대남자 중에서 9, 10 응답자가 이 번 조사에서 이상하게 많았고, 그래서 9, 10 응답자가 전체 로짓계수 추정에 끼친 영향이 작지 않고, 이들의 응답 특성이 이상하게 타인을 돕지 않겠다에 쏠려있다면 이런 결과가 나올 수 있다. 이 경우 주관적 계층인식의 패턴이 이 전 조사와 완전히 다를 것이다. 그런데 그런 가능성 제기하는 사람은 아무도 없지 않은가? 다들 9, 10 응답이 적어서 문제라고 그러지. 그리고 설사 이렇게 나왔더라도 X와 Y의 관계가 달라지는건 아니다.
다른 가능성도 있다. 완전히 반대로 20대남성 중 1, 2 응답자가 이상하게 많고 이들이 높은 공동체 인식을 보였을 경우 이런 그래프가 나올 수 있다. 상위층 인식 20대가 특별히 공동체 인식이 낮지 않은데 이상하게 하위층 인식 20대의 공동체 인식이 높아서 우하향 패턴이 나왔을 가능성이다. 이 경우에는 이 번 그래프에서 일반적으로 내리는 결론과는 다른 함의가 도출된다.
하지만 아래 주관적 계층인식 포스팅에서 보여주었듯 이 전 연구를 보면 연령과 성별에 관계없이 주관적 계층인식은 정규분포 비슷한 응답 패턴을 보이기 때문에 확률적으로 그럴 가능성이 높지는 않다.
어쨌든 여기서 언급한 두 가지 가능성이 없는건 아니기 때문에, 의문을 확실히 해소하기 위해서는, X변수의 분포에 대한 데이터 확인이 필요하다.
4.
주관적 계층인식의 분포와 관련된 또 다른 주장은 9, 10 응답자가 적어서 이들 집단의 분산과 표집오차가 크기 때문에 그래프를 이렇게 그려서는 안된다는 것이다. 이런 논리면 X변수의 분포가 정규분포면 회귀분석하지 말라는 황당한 주장이 된다. 회귀분석에서 X변수의 분포에 대한 가정은 없다. 아무 변수나, 어떤 분포의 변수라도 넣어도 된다
다만, X변수의 variability가 낮으면 계수추정치가 부정확하다. X변수의 범위가 너무 좁으면 Y와의 관계가 실제로 어떤지 알기 어렵다. 대부분의 경우 X변수의 variability 작으면 계수추정치가 유의하지 않다.
이 전 조사에서의 주관적 계층인식 분포를 보면 X의 분산이 작지 않다. 또한 X의 분산이 집단별로 큰 차이도 없다. 따라서 이 가능성도 상당히 낮다.
5.
주관적 계층인식 최상위권과 최하위권의 숫자가 작기 때문에 이들의 기대확률을 구하면 안되는가? 그렇지 않다.
최상위권의 응답 숫자가 적어서, 주관적 계층 1-10까지의 모든 경우에 기대확률을 그린 이 그래프가 외삽(extrapolation)이라고 한다. 최상위권 추정치에 외삽의 "효과"가 없는건 아니다. 효과가 있다는 거지 엄밀한 의미에서 외삽도 아니다. 주어진 응답지의 X 범위 내에서의 추정 확률이기 때문에 외삽이 아니다. 회귀분석은 관찰치 범위 내에서의 추정은 대체로 믿을만하다. 그리고 이 외삽효과는 상위권만 아니라 하위권도 해당된다.
물론 주관적 계층인식 양극단에서 X, Y의 관계가 뭔가 변할 수 있다. 이 경우 주관적 계층인식과 공동체 인식이 계층인식의 양극단에서 중간 계층인식과 달리 단절적이라는 가정이 있어야 하는데, 그 이유가 무엇인가? 1-8까지는 연속적인데, 9, 10에서 갑자기 튀어야하는 이론적 이유가 있는가? 그런게 없다면, 주관적 계층인식과 공동체 인식이 연속적이라는 가정이 더 합리적이다.
6.
이 얘기 하는 사람이 거의 없는데, 이 번에 문제가 된 그래프에서 의심해야 하는 결과는 계층인식 최상위권이라기 보다는 계층인식 최하위권의 응답이다.
현재의 그래프에서는 주관적 계층인식이 낮은 20대남자가 다른 집단보다 공동체 인식이 더 높은 듯이 보이지만, 이것이야 말로 로짓분석의 회귀계수로 인한 착시일 가능성이 높다. 1, 2 응답자나 3 응답자나 별 차이가 없는데, 경향적으로 3~8 사이의 주관적 계층인식과 공동체 의식이 음의 관계라서 그렇게 보이는 것이다.
외삽 효과와 로짓회귀분석의 위험성에 대해서 제대로 인식하고 있다면 주관적 계층인식에서 1, 2인 사람들에 대한 타집단과의 비교 해석을 경계해야 한다.
왜 그런지 해석의 문제를 살펴보자. 주관적 계층인식 상층의 집단간 격차는 통계 결과를 확대 해석 내지는 잘못 해석해도 양적 문제에 그친다. 정도의 문제이지 20대남성이 다른 집단보다 같은 상위권 계층인식에서 공동체 의식이 낮다는 해석이 달라지지 않는다. 이에 반해, 주관적 계층인식 하층의 집단 간 격차는 잘못 해석하면 질적 차이가 있다고, 그러니까 하위계층에서는 20대남이 다른 집단보다 타인을 돕고자하는 의향이 크다고 오인하게 된다.
7.
어떤 분들은 로짓이 아니라 LPM 돌렸으면 좋았을 것이라고 한다. 저도 (다른 사회학자와 달리?) 로짓보다 LPM 좋아한다. 그런데 margins를 구하면 둘의 평균 계수 추정치는 거의 같다. 그렇게 나오게끔 되어 있다. 둘이 거의 똑같으니까 LPM이 좋은거지 로짓과 LPM이 달라지면 로짓을 돌려야 한다. 이항분포 분산의 특징 때문에 로짓의 표준오차가 더 정확하고, 로짓의 기대확률이 더 합리적이다. 하지만 로짓의 모든 계수값이 사실상의 상호작용 효과라 해석이 까다롭고 직관적이지 않아서 어차피 margins를 구하니까 LPM으로 하는게 좋다.
그런데 이 번 그래프에서 로짓이 아니라 LPM을 돌렸으면 50대 남성, 주관적 계층 10 응답자의 공동체 의식은 1이 넘어갈거다. 주관적 계층 5의 응답이 가장 많고 이 지점에서의 기울기가 전체 기울기를 대표한다고 생각하면 금방 알 수 있다. 아마 LPM을 돌려서 그래프를 그렸으면, LPM의 문제점이 심각하게 드러나는, 그러니까 50대남은 최상위층에서 타인을 돕고자 하는 응답이 100%를 넘어가는 그래프가 되었을 것이다. 로짓이니까 그런 문제가 안나타나는거다. 연구자들이 그 문제까지 다 고려했는지는 알 수 없지만, 저같아도 이 번 분석에서 그래프를 그릴려면 로짓을 돌린다.
8.
마지막으로 confidence interval 문제. 방송에 보도된 라인 그래프 중에서 CI를 표시한게 얼마나 되는가? 과문해서 모르겠지만, 제가 기억하는 건 없다.
국가 공식 통계인 고용률이나 실업률도 서베이 기반이다. 이것도 이항변수다. 매월 발표할 때 이건 CI도 필요없이 정확해서 발표안하는거 아니다. 학술적 보고서에는 CI를 넣는게 좋겠지만 방송용 그래프인걸 감안해야 한다. CI가 금과옥조가 아니다.
정리하자면, 이 번 결과가 이상할 가능성은 두 가지가 있다.
(1) 주관적 계층인식의 분포가 이 전 연구와 다르다. 이 문제는 샘플링이 통계적 우연이든 뭐든 잘못되었다는 얘기다. 주관적 계층인식 양극단의 응답이 작아서가 아니라, 이상하게 20대남자에서 양극단 응답자가 상대적으로 많았을 경우가 문제다. 또 다른 가능성은 특정 응답(예를 들면 5)에 이상하게 20대남자는 극히 집중되고, 양극단의 Y 값이 또한 다른 집단과 달랐을 가능성이다.
상당한 우연을 가정해야 하기 때문에 300명 샘플에서 이 확률이 높지 않다고 보지만, 불가능하지 않다. 더욱이 웹서베이였다면 뭔가 선택편향이나 표집편향이 있을 가능성이 있다. 이 문제는 주관적 계층인식의 분포만 보면 금방 확인 가능하다. 연구자들이 이런 건 바로 확인해줘야 한다. 더 바람직한 것은 보고서가 공개되어서 궁금한 사람은 바로 찾아볼 수 있어야 하고.
(2) 다른 가능성은 공동체 인식에 대한 20대남자들의 응답이 통계적 우연에 의해서 잘못 되었을 가능성이다. 이 문제는 이 번 조사 아무리 분석해도 확인이 불가능하다. 추후 연구를 통해서 반복되는지 봐야 한다.
이렇게 매우 흥미롭고 중요한 발견이 있을 때 연구자들은 더 엄밀하게 결과를 제시할 필요가 있다. 그런 면에서 상당한 아쉬움이 있다.
어쨌든 데이터주의자들에게 흥미로운 생각거리, 내지는 로짓 통계 분석 가르칠 때 좋은 토론 사례가 되었기를...