김신호 과장님, 


직접 댓글 (요기, 요기, 요기, 요기, 요기, 요기) 남겨주셔서 대단히 감사합니다. 통계청 주무부서를 거친 과장으로 답답해도 무시할 수 있는데 직접 댓글 남기고 소속을 밝힌 것은 큰 용기가 필요한 일이라고 생각됩니다. 


외람되지만 몇 가지 점에서 말씀드리고 싶은게 있고, 세 가지 질문도 드리고 싶습니다. 


우선, 이 블로그를 체크하시는 기자 분들이 간혹 있습니다. 통계청 과장 신분을 밝히고 댓글을 남기실 때는 혹시 책잡힐 것은 없는지 각별히 유념하시는 것이 좋습니다. 가계동향조사와 가금복을 과장시절에 직접 담당하셨다고 하니, 아래 남겨주시고 또 남겨주실 것으로 기대하는 글들이 통계청 공식 입장은 아니더라도, 통계청에 계신 핵심담당자들의 지배적 의견을 반영하고 있다고 대부분 믿을 것입니다. 


앞서도 두 번 말씀드렸지만 부디 글을 읽고서 답변하시기를 부탁드립니다. 아래 글에서 명확히 밝혔듯, 연속표본을 이용한 분석은 고려대 이우진 교수님이 한 것입니다. MDIS에서 제공하는 원자료에는 연속표본인지 신규표본인지에 대한 정보가 없기 때문에 저는 이 분석이 불가능합니다. 그렇기에 저에게 연속 표본을 이용한 분석에 가중치를 제대로 주었냐는 질문은 적절치 않습니다. 


과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다. 참고로 저는 사회과학자들을 대상으로 가중치를 어떻게 주어야하는지에 대한 특강을 한 적도 있습니다. 


저에게 표집에 대한 전체 정보가 있는 원자료를 주시면 retention에 대한 가중치를 보정한 후의 연속 샘플 결과를 분석할 수 있고, 2017년과 2018년의 모집단 추정 변화에 따른 효과를 통제한 후 2018년에도 2017년과 모집단 분포에 변화가 없다고 가정할 때의 counterfactual한 변화를 분석할 수 있습니다. 현재 논란이 되고 있는, 2015년 센서스에 기반한 가구변화, 연속샘플과 신규샘플의 특정 변화를 모두 통제한 후에 결과에 일관성이 있는지 분석해 볼 수 있습니다. 


고려대 이우진 교수가 가중치를 제대로 부여하여 분석했는지 그러지 못했는지, 가중치를 바꾸면 결과가 달라지는지를 저 같은 사람에게 원자료를 주시면 검증해 볼 수 있습니다. 더욱이 한국에서는 보수적인 정치적 입장을 가진 학자가 진보적인 분 보다 훨씬 많습니다. 이우진 교수의 분석이 잘못된 것이면, 보수적인 학자들이 알아서 반박할 것입니다. 그런데 지금은 자료가 없으니 누구도 이우진 교수에 대해서 반박하지 못하는 것 아닙니까.


그러니 학자들에게 원자료를 제공하면 retention rate에 따른 가중치 변화를 제대로 보지 못할 것이라는 염려는 하지 않으셔도 좋습니다. 모 기자처럼 원자료를 줘도 뭘 제대로 모르고 엉뚱한 소리를 하는 사람도 물론 있겠지만, 이 때문에 연속표본인지 대체표본인지를 알 수 있는 식별자 자체를 제공하지 않는 통계청의 결정은 잘못된 것입니다. 좋게 표현해 구더기 무서워 장 못담그는 노파심이고, 심하게 말해 국민 세금으로 만든 공유자산을 사유재산처럼 독점하는 것입니다. 이런 행태는 프라이버시 보호도 아닙니다. 논란거리를 차단하겠다는 조직 이기주의일 뿐이죠. 


학자들도 공무원을 무시하는 경향이 많으니 과장님 개인으로써는 매우 불쾌할 수도 있고, 피차일반이라고 할 수도 있으나, 과장님과 통계청의 결정은 공적인 것입니다. 제대로 분석하지 못하고 엉뚱한 소리하는 학자나 기사에 대한 대응은 그것대로 필요한 것이지, 원자료를 제공하지 않으면서 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는"다고 말하는 것은 이해하기 어려운 결정입니다. 이런 마인드를 가지고 있으니 정책 기관과 청와대에서 원자료 전체를 달라는 걸, 마치 통계청의 권한을 침해한 것으로 느끼는 것 아닙니까. 





여기서 질문 드리겠습니다. 기우에서 미리 말씀드리면 일반론을 반복하지 마시고 질문에 답변해주실 것을 부탁드립니다. 과장님이 링크해 주신 글들은 통계학 처음 공부하는 학부생이나 석사 과정생들이 읽으면 도움이 될만한 정도의 일반론입니다. 그 수준의 얘기가 아닙니다. 논의를 이해하지 못해서 일반론을 반복하는 것인지, 알지만 물타기 할려고 하는 건지 모르겠지만, 둘 다 좋은 신호는 아닙니다. 본 글에서 연속표본과 전체표본에 차이가날 여러 가능성에 대해서 언급해 두었습니다. 원자료를 제공하지 않는 이상, 통계청에서 소상히 연속표본과 전체표본에 차이가 나는 이유를 밝혀야 합니다. 


그럼 진짜로 질문 드립니다. 


첫번째로 통계청에서 탈락 표본이 생겨서 대체할 때 어떤 변수를 감안하여 대체하시나요? 대체 표본의 attrition 효과를 고려하여 가중치를 구하시나요? 그렇다면 가중치를 구할 때 통제하는 변수는 무엇입니까? 대체 표본을 산정할 때 탈락 표본의 소득도 명시적 고려 사항입니까? 


두번째로 소득에 따른 attrition rate의 차이가 얼마나 되나요? 만약 소득이 대체 표본의 명시적 고려사항이 아니라면, 소득에 따른 탈락률의 차이가 불평등 측정에 어떤 영향을 끼친다고 생각하고 계십니까? 추가 샘플이 이 번 처럼 많을 경우 이 효과가 어떤 영향을 끼친다고 가정하시는가요? 실제로 그런 분석을 해보셨습니까? 


마지막으로 과장님 말씀은 가중치를 제대로 주고 분석하면 통계청에서 원래 발표했던 내용이 연속표본에서도 재현되는 것처럼 들립니다. 그게 아니라면 반복해서 말씀하시는 가중치 얘기는 동문서답이 됩니다. 그런 결과가 나옵니까? 





학자들 사이에서도 제가 논쟁을 할 때 매우 직설적이고, 단도직입적으로 쟁점을 단순화해서 제기하는 것으로 악명이 높습니다. 저는 그래야 차이가 분명해지고 서로 합의하고 논쟁할 수 있는 것과, 입장의 차이를 확인하고 정리해야 하는 것들이 분명해 진다고 느껴서요. 이런 식의 어법이 대민상대가 많은 공무원들의 일반적인 언어구사법이 아니라 당혹스러우실 수도 있다고 생각됩니다. 널리 양해해주시기를 부탁드립니다. 


다시 한 번 용기를 내서 답글 써주신 것에 감사드립니다. 추가로 시간내셔서 제 질문에 구체적인 답변을 주시면 저 뿐만 아니라 다른 많은 분들에게, 나아가 현재의 국가적 논란을 정리하는데 크게 도움이 될 것입니다. 

Posted by sovidence
,