논문 원본

채훈우진아빠님 소개글

연합뉴스 기사


대도시가 시골보다 비만도도 낮고, 스트레스도 적고, 병도 덜 걸린다는 연구 결과. 이 결과의 반향이 컸는지 채훈우진아삐님도 자세한 소개글을 남겼다. 


처음에 기사를 보고는 그럴 수도 있다고 생각했는데, 채훈우진아빠님의 자세한 분석을 보고는 이상하다는 생각이 들어 원문을 살펴봤다. 


결론은 나는 이 결과 안믿는다. 보다 정확히는 아마 일부만 맞을거라고 생각한다. 


연구 분야로써 건강 문제는 완전 문외한이고 큰 관심도 없는데, 지역 문제는 약간 관심이 있다. 이 연구에서 사용한 Multilevel analysis도 나름 잘 이해하는 편이다. 


그런데 이 연구는 두 가지 커다란 문제가 있다. 내 학생들이 한국어를 읽을 수 있다면 이 논문을 읽히고 논문의 문제점을 찾는 훈련을 시키고 싶은 심정이다. 




두가지 문제 중 하나는 연령 통제 변수의 문제점, 다른 하나는 인구규모 변수에 대한 의문점. 


이 연구에서 연령 변수를 제대로 통제하는 것이 다른 변수의 유의성을 판별하는데 필수적이다. 채훈우진아빠님의 글에서 보여주듯 BMI와 스트레스는 연령과 curvilinear한 관계를 맺고 있고, 유병률은 선형적 관계다. 


이 경우 연령과 더불어 연령의 자승을 반드시 통제해줘야 한다. 그렇지 않을 경우 모델의 fitness가 떨어진다. 


그런데 모델 fit보다 더 큰 문제는 이 논문의 핵심 변수인 인구규모가 연령과 상관관계를 이루기 때문에 연령 변수를 제대로 통제하지 않으면 인구규모와 종속변수의 관계가 잘못 측정된다. 그림3은 연령을 통제한 후의 지역과 스트레스의 관계를 보여준다. 이 그림에서 스트레스가 가장 낮은 지역은 비수도권, 인구 10만 이하 지역이다. 그런데 multilevel 분석은 이와는 완전히 반대되는 결론을 내놓고 있다.


이렇게 그림과 회귀분석이 정반대로 나올 경우 모델 오류의 가능성이 크다. 아니면 다른 통제변수의 효과가 강력하기 때문이다 (매우 흥미로운 결과).  후자의 가능성을 완전히 배제할 수는 없지만, 연령자승을 통제하지 않은 misspecification의 가능성을 가장 먼저 체크해야 한다.   


좀 더 전문적으로 설명하자면 BMI와 스트레스가 그림 2,3에서 보듯 inverted U-curve 패턴을 보이는데 연령 변수의 방향은 BMI는 negative, 스트레스는 positive다. inverted U-curve의 변곡점이 달라서 BMI와 스트레스 모두 연령과의 관계가 비슷한 패턴을 그림에도 불구하고 회귀분석에서는 연령과의 관계가 완전히 정반대로 나온다. 만약 연령과 연령자승을 모두 통제하면 두 종속변수 모두 연령은 positive 연령자승은 negative로 바뀔 것이다. 


따라서 (연령자승의 통제없이) 연령만 통제한 후의 잔차와 인구규모의 관계는 여전히 연령 효과에 의해서 크게 영향을 받는다. 고연령층의 잔차는 negative, 중간연령층은 positive로 나올 것이다. 연령자승까지 통제해야 인구 규모의 효과가 전연령층 효과의 평균으로 제대로 계산될 수 있다. 특히 스트레스와 관련해서는 결론이 뒤집어질 가능성이 있다. 


회귀분석의 계수추정치와 잔차와의 관계를 제대로 이해하지 못하면 이런 실수를 하게된다. 




다음은 인구규모 변수에 대해 의문점이 있다. 논문에서 인구규모를 10만이하; 10-30만; 30-50만; 50만명 이상으로 구분한 순위변수를 사용했는데, dummy변수가 아닌 연속변수로 모델에 사용하였다. 인구규모 변수가 단순 통제변수였다면 그래도 이해하겠는데, 주독립변수면 이렇게 처리하면 안된다. 


더 큰 문제는 이 연구의 단위가 시,군,구라는 것이다. 구 단위의 인구수가 그 지역의 인구규모를 반영하는 것으로 생각하는 사람이 얼마나 있을까? 예를 들어 광주광역시 동구는 인구가 30만이 조금 넘는다. 이 논문의 기준으로 보면 대도시가 아니다. 서울, 대전, 광주, 대구, 부산 모두 마찬가지다. 구별 인구는 50만명을 넘는 지역이 얼마 없다. 


논문의 기술로는 광역대도시의 구도 모두 구별 인구만으로 분리한 것 같은데, 100% 확신은 못해서 의문점이라고 표현하였다. 나의 의구심을 더 키운 것은 표1이다. 표1에서 한국인구의 과반수 이상이 인구 30만명 이하의 소도시에 거주하는 걸로 나오는데, 그렇지 않다. 서울과 광역대도시 거주지만 50%에 이른다. 


모델에서 수도권을 통제하긴 했지만 이걸로는 충분하지 않다. 광역도시 이상을 별도의 변수로 통제하거나, 구가 나뉘는 대도시는 구별 인구가 아닌 대도시 인구를 사용해야 할 것이다. 


만약 이 논문에서 구별 인구를 사용했다면, 인구규모 효과는 모두 잘못 추정되었을 가능성이 있다. 그래도 BMI와 관련된 결론은 (확신하지는 못하지만) 아마도 바뀌지 않을 것으로 추정하긴 하지만,스트레스와의 관계는 바뀔 가능성이 ... 

Posted by 바이커 sovidence