아래 어떤 분이 다음과 같은 답글을 달았음: 


"‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까."


연속 샘플을 이용한 이우진 교수의 결과와 전체 샘플을 이용한 통계청의 결과가 다른 이유는 소득이 오르고 기분이 좋은 사람만 계속 가계동향조사에 응하고 그렇지 않은 사람은 표본에서 탈락하기 때문이라는 것. 충분히 의심해 볼만 지적이고, 제 글에 문제가 있다고 비판하는 전문가 분들도 아마 이 점을 염두에 두고 있을 것으로 추정됨. 


논의가 논의이다 보니 어쩔 수 없이 자꾸 전문 용어 쓰게 되는데, 이렇게 패널조사에서 계속 남는 사람들은 탈락한 사람과 달리 살람살이가 좋아졌다던가 등의 뭔가 편향이 있다는걸 panel conditioning bias라고 함. 


그런데 이 논리에는 두가지 생각해볼 점이 있음. 


예를 들어 전체 인구로 보면 소득이 10% 줄었는데, 소득이 10% 오른 사람은 패널에 남았다고 가정해 보자. 이 경우 연속 패널이 2/3이고, 신규 패널이 1/3이면, 


(A) 전체 소득 증가율 = 0.10*2/3 + (-0.10)*1/3 = +0.033


소득이 3.3% 오른걸로 나옴. 


하지만 다른 모든 조건은 동일한데 연속 패널이 1/3이고, 신규 패널이 2/3로 패널 구성만 바꾸면, 즉 전체 인구로보면 소득이 10% 줄어든 상황은 동일한데, 패널의 구성만 바뀌었다고 치면, 


(B) 전체 소득 증가율 = 0.10*1/3 + (-0.10)*2/3 = -0.033


소득이 3.3% 줄어든걸로 바뀜. 


(A)나 (B)나 실제 변화를 정확히 반영하지 못하는 것은 마찬가지지만, 패널 구성에 변화만 없다면 시계열적 변화로 변화의 방향을 판단할 수는 있음. 하지만 패널 구성이 변화하게 되면 실제 변화와 패널 구성 변화가 혼재되어 버림. 


제 글에 가중치 문제 제기하는 분들이 많은데, 패널 콘디셔닝이 있을 때 신규패널과 연속패널의 구성을 바꾸면 가중치를 완전히 바꾸는 효과가 있음. 이 경우 패널 구성의 큰 변화가 있을 때 시계열적 변화는 의미가 없어짐. 


따라서 이우진 교수의 연속 샘플에서 저소득층의 소득이 올라간 것으로 나온 결과는 가계동향조사의 연속샘플의 어떤 선택 편향이 있는걸 고려하지 않아서 나타난 잘못된 결과라고 주장하는 사람들도 이우진 교수의 결론인 올해의 가계동향조사의 연도별 비교는 의미가 없다라는 주장에는 동의해야 정상임. 그런데 이 분들은 패널 콘디셔닝 문제를 암시하면서 이우진 교수가 틀렸고, 통계청의 기존 발표에 문제가 없다는 식으로 주장하고 있음. 





만약 연속 샘플과 전체 샘플에 차이가 없다면 이런 문제는 없음. 그 때문에 이우진 교수는 연속 샘플과 전체 샘플의 격차를 검증해 본 것. 이 논리를 모르고 연속 샘플과 전체 샘플은 다르다는, 통계를 제대로 이해하는 사람들 끼리 보면 기초적 지식에 해당하는 주장만 되뇌이면 곤란. 


또한 이우진 교수가 가중치를 제대로 적용하지 않았을 수도 있음. 이건 이우진 교수가 답해야 할 것. 헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임. 





다음으로 2017년과 올해 사이에 panel conditioning bias가 특이하게 컸다고 생각할 수도 있는데, 이 경우 2017년 가계동향조사의 샘플의 저소득층  attrition rate이 다른 해보다 유난히 컸어야 함. 이는 가계동향조사 샘플의 attrition에 정보를 모두 가지고 있는 통계청에서 바로 확인 가능함. 




어떤 경우가 맞는건지, 패널에 대한 변수가 제대로 있어야 검증할 수 있는데, 통계청에서는 일반 공개 원자료에서 이러한 bias를 알 수 있는 정보를 전혀 제공하지 않음. 


통계청에서 학자들이 가중치를 제대로 안줄까봐 원자료 제공을 꺼린다는데, 원자료를 공개하고 다수 학자들이 이를 쓰게하면 그 전에는 몰랐던 새로운 사실과 문제점을 알게되고, 이런 문제점을 개선하다보면 통계의 품질이 올라감. 한국에서 통계 품질 개선이 더딘 이유 중의 하나가 원자료를 공개하지 않아서 문제가 어디에 있는지 제대로 파악하지 못하는 것임. 


뭐 그래서 저의 결론은 항상 동일. 변수를 숨기지 말고 원자료를 공개합시다~

Posted by 바이커 sovidence

김신호 과장님, 


직접 댓글 (요기, 요기, 요기, 요기, 요기, 요기) 남겨주셔서 대단히 감사합니다. 통계청 주무부서를 거친 과장으로 답답해도 무시할 수 있는데 직접 댓글 남기고 소속을 밝힌 것은 큰 용기가 필요한 일이라고 생각됩니다. 


외람되지만 몇 가지 점에서 말씀드리고 싶은게 있고, 세 가지 질문도 드리고 싶습니다. 


우선, 이 블로그를 체크하시는 기자 분들이 간혹 있습니다. 통계청 과장 신분을 밝히고 댓글을 남기실 때는 혹시 책잡힐 것은 없는지 각별히 유념하시는 것이 좋습니다. 가계동향조사와 가금복을 과장시절에 직접 담당하셨다고 하니, 아래 남겨주시고 또 남겨주실 것으로 기대하는 글들이 통계청 공식 입장은 아니더라도, 통계청에 계신 핵심담당자들의 지배적 의견을 반영하고 있다고 대부분 믿을 것입니다. 


앞서도 두 번 말씀드렸지만 부디 글을 읽고서 답변하시기를 부탁드립니다. 아래 글에서 명확히 밝혔듯, 연속표본을 이용한 분석은 고려대 이우진 교수님이 한 것입니다. MDIS에서 제공하는 원자료에는 연속표본인지 신규표본인지에 대한 정보가 없기 때문에 저는 이 분석이 불가능합니다. 그렇기에 저에게 연속 표본을 이용한 분석에 가중치를 제대로 주었냐는 질문은 적절치 않습니다. 


과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다. 참고로 저는 사회과학자들을 대상으로 가중치를 어떻게 주어야하는지에 대한 특강을 한 적도 있습니다. 


저에게 표집에 대한 전체 정보가 있는 원자료를 주시면 retention에 대한 가중치를 보정한 후의 연속 샘플 결과를 분석할 수 있고, 2017년과 2018년의 모집단 추정 변화에 따른 효과를 통제한 후 2018년에도 2017년과 모집단 분포에 변화가 없다고 가정할 때의 counterfactual한 변화를 분석할 수 있습니다. 현재 논란이 되고 있는, 2015년 센서스에 기반한 가구변화, 연속샘플과 신규샘플의 특정 변화를 모두 통제한 후에 결과에 일관성이 있는지 분석해 볼 수 있습니다. 


고려대 이우진 교수가 가중치를 제대로 부여하여 분석했는지 그러지 못했는지, 가중치를 바꾸면 결과가 달라지는지를 저 같은 사람에게 원자료를 주시면 검증해 볼 수 있습니다. 더욱이 한국에서는 보수적인 정치적 입장을 가진 학자가 진보적인 분 보다 훨씬 많습니다. 이우진 교수의 분석이 잘못된 것이면, 보수적인 학자들이 알아서 반박할 것입니다. 그런데 지금은 자료가 없으니 누구도 이우진 교수에 대해서 반박하지 못하는 것 아닙니까.


그러니 학자들에게 원자료를 제공하면 retention rate에 따른 가중치 변화를 제대로 보지 못할 것이라는 염려는 하지 않으셔도 좋습니다. 모 기자처럼 원자료를 줘도 뭘 제대로 모르고 엉뚱한 소리를 하는 사람도 물론 있겠지만, 이 때문에 연속표본인지 대체표본인지를 알 수 있는 식별자 자체를 제공하지 않는 통계청의 결정은 잘못된 것입니다. 좋게 표현해 구더기 무서워 장 못담그는 노파심이고, 심하게 말해 국민 세금으로 만든 공유자산을 사유재산처럼 독점하는 것입니다. 이런 행태는 프라이버시 보호도 아닙니다. 논란거리를 차단하겠다는 조직 이기주의일 뿐이죠. 


학자들도 공무원을 무시하는 경향이 많으니 과장님 개인으로써는 매우 불쾌할 수도 있고, 피차일반이라고 할 수도 있으나, 과장님과 통계청의 결정은 공적인 것입니다. 제대로 분석하지 못하고 엉뚱한 소리하는 학자나 기사에 대한 대응은 그것대로 필요한 것이지, 원자료를 제공하지 않으면서 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는"다고 말하는 것은 이해하기 어려운 결정입니다. 이런 마인드를 가지고 있으니 정책 기관과 청와대에서 원자료 전체를 달라는 걸, 마치 통계청의 권한을 침해한 것으로 느끼는 것 아닙니까. 





여기서 질문 드리겠습니다. 기우에서 미리 말씀드리면 일반론을 반복하지 마시고 질문에 답변해주실 것을 부탁드립니다. 과장님이 링크해 주신 글들은 통계학 처음 공부하는 학부생이나 석사 과정생들이 읽으면 도움이 될만한 정도의 일반론입니다. 그 수준의 얘기가 아닙니다. 논의를 이해하지 못해서 일반론을 반복하는 것인지, 알지만 물타기 할려고 하는 건지 모르겠지만, 둘 다 좋은 신호는 아닙니다. 본 글에서 연속표본과 전체표본에 차이가날 여러 가능성에 대해서 언급해 두었습니다. 원자료를 제공하지 않는 이상, 통계청에서 소상히 연속표본과 전체표본에 차이가 나는 이유를 밝혀야 합니다. 


그럼 진짜로 질문 드립니다. 


첫번째로 통계청에서 탈락 표본이 생겨서 대체할 때 어떤 변수를 감안하여 대체하시나요? 대체 표본의 attrition 효과를 고려하여 가중치를 구하시나요? 그렇다면 가중치를 구할 때 통제하는 변수는 무엇입니까? 대체 표본을 산정할 때 탈락 표본의 소득도 명시적 고려 사항입니까? 


두번째로 소득에 따른 attrition rate의 차이가 얼마나 되나요? 만약 소득이 대체 표본의 명시적 고려사항이 아니라면, 소득에 따른 탈락률의 차이가 불평등 측정에 어떤 영향을 끼친다고 생각하고 계십니까? 추가 샘플이 이 번 처럼 많을 경우 이 효과가 어떤 영향을 끼친다고 가정하시는가요? 실제로 그런 분석을 해보셨습니까? 


마지막으로 과장님 말씀은 가중치를 제대로 주고 분석하면 통계청에서 원래 발표했던 내용이 연속표본에서도 재현되는 것처럼 들립니다. 그게 아니라면 반복해서 말씀하시는 가중치 얘기는 동문서답이 됩니다. 그런 결과가 나옵니까? 





학자들 사이에서도 제가 논쟁을 할 때 매우 직설적이고, 단도직입적으로 쟁점을 단순화해서 제기하는 것으로 악명이 높습니다. 저는 그래야 차이가 분명해지고 서로 합의하고 논쟁할 수 있는 것과, 입장의 차이를 확인하고 정리해야 하는 것들이 분명해 진다고 느껴서요. 이런 식의 어법이 대민상대가 많은 공무원들의 일반적인 언어구사법이 아니라 당혹스러우실 수도 있다고 생각됩니다. 널리 양해해주시기를 부탁드립니다. 


다시 한 번 용기를 내서 답글 써주신 것에 감사드립니다. 추가로 시간내셔서 제 질문에 구체적인 답변을 주시면 저 뿐만 아니라 다른 많은 분들에게, 나아가 현재의 국가적 논란을 정리하는데 크게 도움이 될 것입니다. 

Posted by 바이커 sovidence

통계청장을 왜 교체했는지, 교체가 정당했는지 여부는 각자 알아서들 판단할 일. 아무리 논쟁해도 이거는 결론이 안날 것.


논쟁을 하고 정리해서 대략 합의가 가능한 점들은 

(1) 가계동향조사의 시계열적 비교에 문제가 있었느냐는 점과,  

(2) 데이타 제공을 둘러싼 통계청의 태도가 적절했냐는 점. 


(1)과 (2) 모두에 문제가 있어도 통계청장을 교체하지 않을 수도 있고, 둘 다 문제가 없어도 교체할 수 있는 것. 이념에 관계없이 위 두 가지를 같이 논의할 수 있는 사람이 있고, 그럴 수 없는 사람이 있음. 후자의 사람들은 뭐... 


자 그럼 통계의 객관성에 대해 상당한 신념을 가지고 있는 제가 왜 통계청장 교체에 대해 별 불만이 없는지, 합의 가능한 위 두 가지 문제에 대한 좀 더 자세한 제 생각을 말씀드리겠음. 


블로그 글은 가능한 요점만 간단히 짧게 쓸려고 하는데, 워낙 논란인 주제인데다, 가계동향조사 조사방식이 일반적 상식으로 알고 있는 내용이 아니다 보니, 이 번 포스팅은 좀 길고, 다른 포스팅보다 좀 지루할 것. 






가계동향조사를 둘러싼 논란의 핵심은 2016-2018년 데이타의 연도별 비교가 적절하냐는 것. 통계청장의 교체를 둘러싼 논란은 각자의 판단 영역이지만, 가계동향조사의 연도별 비교 적절성 여부로 논쟁을 좁히면, 적절하지 않다는 입장이 받아들여질 가능성이 매우 농후함. 왜 그런지 한 번 보겠음. 


가계동향조사는 연도별 비교를 염두에 두고 설계되어 있음. 한 번 조사대상 샘플 가구가 되면 3년간 지속해서 조사함. 매년 1/3씩 기존 샘플을 탈락시키고, 1/3씩 신규 샘플을 추가하는 설계. 그런데 연도별 샘플 교체도 한꺼번에 하는 것이 아니라 6개월에 걸쳐서 월별로 조금씩 바꾸게 되어 있음. 따라서 연도별 비교를 하면 적어도 2/3 정도는 작년에도 있었던 샘플임. 표본 설계상 연도별 비교에서 한꺼번에 샘플이 바뀌는 일이 없고, 설사 표집오차가 있더라도 연도별 비교에 큰 무리가 없게끔 설계되어 있다는 것. 


이 때문에 가계동향조사는 횡단면 조사이지만, 종단면 조사의 성격을 가지고 있음. 2/3 정도의 샘플은 연도별 종단면 변화를 추적할 수 있게끔 설계되어 있음. 미국으로 치면 4-8-4 Outgoing rotation group으로 설계된 Current Population Survey(CPS)와 비슷함. 뒤에 자세히 얘기하겠지만, 미국은 CPS의 이런 특성을 연구자들이 모두 이용할 수 있게 자료를 제공하는데 한국 통계청은 그러지 아니함. 


어쨌든 이렇게 연도별 비교에 아무런 문제가 없어야 정상인 조사설계가 작년에 가계동향조사를 없애니 마니 하면서 큰 요동을 치게됨. 작년에는 5,500가구의 소규모 샘플로 진행하다가, 올해 가계동향조사 정상화로 8,000가구로 확장한 것. 


이에 따라 1/3만 신규 가구여야 정상인 조사가 올해는 작년 대비 57%의 가구가 신규 가구로 구성되었음. 게다가 올해는 2010년 센서스가 아닌 2015년 센서스 기준으로 표본 구성을 변동시킴에 따라 노인가구의 비중이 높아짐. 과거와 달리 가계동향조사 샘플의 연속성이 크게 낮아짐. 


게다가 조사방식도 과거에는 기장식, 즉 응답자가 직접 기입하는 방식이 주였는데, 올해 조사에서는 고소득층의 응답률을 높이기 위해 기장식이 아닌 면접식을 대폭 확대했다고 함.  


그 결과 연도별 직접 비교가 가능한지에 대해 세심한 주의가 필요해짐. 


두 연도 간 수치에 큰 변화가 없다면 연도간 비교에 별 문제가 없다고 일반적으로 가정할 수 있지만, 최근에 논란이 되었듯이 소득 분위별로 소득 증가율이 크게 달라졌다면 이 결과가 샘플의 변화로 인한 통계적 우연인지, 실체적 변화를 반영하는지 검증할 필요가 있음. 


그런데 검증을 어떻게 할 수 있겠음? 여기서 가계동향조사의 특성을 이용할 수 있음. 설사 표본에 큰 변화가 있더라도 샘플 교체와 신규 유입이 완전 랜덤이라면 신규 샘플과 연속 샘플의 소득 변화에 별로 다른 점이 없어야 정상임. 연속 샘플만으로 분석해도 전체 표본을 분석했을 때와 질적으로 동일한 결과가 나타나야 한다는 것. 


통계청에서 발표한 가계동향조사 전체 샘플 결과는 전반적인 인구구성변화를 반영하고 샘플 크기를 늘린 것. 전체 샘플은 인구 대표성이 높은 장점이 있고, 연속 샘플을 이용한 패널 기법은 연도별 변화를 추적하기에 더 적합함. 각각이 서로 다른 장점이 있음. 전체 샘플과 연속 샘플의 결과가 유사해서, 가계동향조사를 횡단면적으로도 종단면적으로도 분석할 수 있어야 정상임.  


그런데 고려대 이우진 교수가 검증해 보니, 1분위의 소득 감소는 신규 샘플에서만 나타나고, 연속 샘플에서는 그런 경향이 안나타났다고 함. 이우진 교수의 분석에 따르면 연속 샘플에서는 "1분위(저소득층) 소득은 2016~2017년 감소했다가 올해 17% 증가했다. 5분위(고소득층)의 경우 2016~2017년에는 소득이 15% 늘었다가 2017~2018년에는 2% 줄었다." 


연속 샘플에서는 저소득층 소득이 17% 늘었다니 전체 샘플을 이용한 통계청의 발표와는 달라도 너무 다른 결과임. 통계청 발표에 근거해 소득주도성장 때문에 저소득층의 소득이 오히려 줄었다고 공격하는 보수의 논리와는 완전히 다른 결과가 연속 샘플에서는 나온다는 것. 이 결과에 바탕해 소득주도성장으로 저소득층의 소득이 사실은 크게 늘었다고 말할 수도 있음. 


두 연도를 비교할 때, 횡단면 조사 두 개를 비교하는 것보다, 동일 샘플의 연도별 변화를 비교하는 패널 기법이 overtime 변화에 대한 기법으로 신뢰도가 더 높다는 것은 논란의 여지가 없이 명확한 것임. 


그런데 논란이 된 올해 가계동향조사는 전체 샘플을 이용한 횡단면 비교와, 패널로 유지된 샘플로 한정한 종단면 비교의 결과가 완전히 반대로 나온 것. 이렇게 되면 결과를 신뢰할 수 없게됨. 시쳇말로 나가리 판이 되는 것임. 


도대체 왜 두 결과가 반대인 것임? 


여기서 참고로 가계동향조사의 연속 샘플과 탈락 샘플은 일반적인 패널조사의 attrition과는 다름. 일반적인 패널조사는 샘플의 지속성 유지가 목표지만, 가계동향조사는 3년마다 샘플을 체계적으로 바꾸도록 설계되어 있음. 탈락 샘플과 연속 샘플 간에 차이가 원래는 거의 없어야 정상임. 즉, 연속 샘플은 소득이 증가한 가구만 남고 탈락 샘플은 소득이 감소한 가구로 이뤄져서, 연속샘플로 조사하면 저소득층의 소득 증가가 과대 계상되는 그런 상황이 아님. 이우진 교수의 방법론이 어떤 체계적인 bias를 가질 가능성이 없어야 정상임.   


통계청 담당 과장은 조사 대상의 중복률이 아니라 표본의 대표성이 더 중요하다며 대통령 지지율 조사를 예로 들었다는데, 위에서 자세하게 얘기한 연속 샘플과 신규 샘플의 격차를 전혀 설명하지 못하는 말도 안되는 변명임. 유경준 전임 청장도 표본의 대표성만 얘기하지, 연속 샘플과 신규 샘플의 격차에 대해서는 전혀 말하지 않았음. 


통계청 담당 과장의 변명은 예전에 (2012년인가? 기억이 가물) 가계금융복지조사와 가계동향조사의 불평등 정도가 크게 다르게 나타났는데, 당시 담당 과장이 그래도 가계동향조사가 더 신뢰할만한 국가 공식 지표라고 아무런 설명도 없이 박박 우기는 답변을 내놓았던 것과 비슷하다는 생각임. 지금의 통계청 공식 입장은 조만간 소득불평등 근거 자료를 가계동향조사가 아닌 가계금융복지조사로 바꾸는 것임. 가계동향조사에 문제가 없다던 당시 담당과장의 입장에서 180도 선회한 것. 


그래서 저소득층의 소득이 줄었다는 것임 늘었다는 것임? 어느 결과가 맞는 것임? 


세가지 가능성이 존재함. 첫번째는 2018년 추가 샘플에 문제가 있었을 가능성; 두번째는 연속 샘플에 바이어스가 있을 가능성; 세번째는 2018년 자료에서 연속샘플 추가샘플 둘 다 문제가 없는데 2017년 자료에 문제가 있었을 가능성. 즉 마지막 가능성은 2017-2018년 사이에 저소득층의 소득이 증가했는데, 2017년 자료가 저소득층의 소득을 제대로 측정하지 못해서 이런 사단이 벌어졌다는 것. 2017년 조사는 2010년 센서스 기반이라 노인가구가 적었고, 저소득층이 더 많이 샘플에 포함되어 있었어야 하는데, 무슨 이유에선가 2017년 샘플에서 저소득층이 체계적으로 누락되었다는 것. 2017년에 엉망이던 샘플을 2018년에 제대로 바로 잡으니 문제가 생겼을 가능성. 


즉 세번째 가능성은 가계동향조사는 어차피 없어질 조사라고 생각해서 2017년 조사가 정교하지 않게 이루어졌을 가능성임. 이게 다 사람이 하는 일이라 항상 휴먼 에러가 있음. 2018년에 없어질 가계동향조사를 2017년에 뭐 때문에 그렇게 열심히 하겠음. 대충하고 말지. 


통계청 휴먼 에러의 한 사례로 예전에 센서스 직업코드를 교체하면서 두 센서스간 연속 비교가 가능한 crosswalk 표를 제대로 안만들어서 생난리가 났던 적도 있음.  


어쨌든 저소득층의 소득이 작년 대비 올해 늘었는지 줄었는지, 샘플에 따라 차이가 나는 이유가 위에 언급한 셋 중 어느게 맞는지는 현재까지의 분석 결과로써는 알 수 없다가 정답임. 


무엇이 되었듯 그래서 내릴 수 있는 결론은 가계동향조사 소득분위별 2016~2018년 변화 비교를 신뢰할 수 없다는 것. 저는 이 정도는 이념에 관계없이 합의할 수 있는 영역이라고 생각함.  






다음 주제로 넘어가기 전에 덧붙이는 말. 그럼 이렇게 신뢰하기 어려운 가계동향조사를 생산한 통계청은 크게 잘못한 것인가? 


그런거 아님. 통계는 항상 표본오차와 측정오차를 가지고 있음. 어쩌다가 결과가 튀기도 하고 그런 것. 이 번 가계동향조사처럼 우여곡절을 겪으면 통계 원자료의 안정성이 낮아지는게 일반적임. 위에서 말했지만 2017년 조사가 이상하고, 2018년 조사가 제대로 된 것일 가능성도 배제할 수 없음. 2018년에 조사 제대로 한 통계청 사람들이 무슨 죄임? 통계를 분석하고 이용할 때는 이러한 문제점들을 인식하고 여러 가능성에 대한 열린 태도를 가져야 함. 


그런데 한국에서는 통계 결과를 무슨 불변의 진리인양 간주하고 생난리를 피우는 경향이 있음. 교수들이 통계청 결과를 공격할 때도 에러의 가능성, 여러가지 통계가 일치하지 않지만 그래도 자료로써의 가치가 있는 정도를 보지 않으려고 함. 


아래 최근 논란을 둘러싼 통계청의 태도를 비판하겠지만, 한 편으로는 통계청의 태도가 이해되는 측면도 있다는 점을 미리 말해 둠.






위에 얘기한 가계동향조사의 문제점에 대해서는 통계에 대한 지식이 있는 사람들이라면 그래도 쉽게 합의할 수 있겠지만, 통계청의 대응 태도가 문제가 있었는지에 대해서는 좀 더 의견이 갈릴 것. 그래도 이 논란 와중에 통계청의 대응과 태도는 어떤 문제점이 있는지 한 번 따져보겠음. 


우선 위에서 언급한 연속 샘플과 교체 샘플의 큰 격차가 국가적 논란이 생긴 후 통계청이 아닌 학자들에 의해서 이의가 제기되었다는 것 자체가 통계청의 문제점을 드러냄. 


내부 사정을 자세히 알 수 없지만 가계동향조사 표본을 설계하고 원자료를 가장 먼저 분석한 통계청이 문제점을 충분히 인식했을 가능성이 상당함. 그럼에도 불구하고 문제에 대한 자세한 설명없이 오랫동안 깔아뭉개고 있었다는 비난을 면할 길이 없음. 국가적 논란에도 불구하고 주무 부처인 통계청의 대응이 안일했음. 


안일하기만 했으면 그 나마 다행인데, 예전에 청와대에서 가계동향조사를 개인소득으로 바꿔서 노동자 가구의 소득은 늘었다고 대통령이 직접 얘기할 때 통계청에서 그런 통계는 없다는 식으로 대놓고 딴지를 놓기도 했음. 


통계청에서 원자료를 가공하여 새로운 함의를 도출하는 방식에 대해 딴지를 거는 것은 이해하기 어려움. 왜 그런지 밑에 다시 자세히 말하겠음. 


다음으로 언론 보도에 따르면 통계 원자료를 제출하라는 청와대의 요청에 제대로 응하지 않을려고 했다는데, 이 태도도 잘못된 것. 


통계법에 따르면 통계 원자료는 공식 발표 하루 전에 유관 기관에 제출할 수 있지만, 국가 경제 위기나 국가적 혼란이 예상될 때는 그 전에라도 원자료를 제공할 수 있음. 


통계청은 이 법조문을 자료를 제공하지 않는 근거로 삼는데, 저는 오히려 이 법조문을 자료를 제공하는 근거로 삼아야 한다고 봄. 가계동향조사 결과가 경제적 위기와 국가적 논란의 대상이 되기 때문에 유관기관에 공식 발표 이전에 원자료를 제공했다고 하면 깔끔하지 않음? 지금과 같이 통계자료로 경제적 문제가 심각하게 대두될 때 통계청에서 유관기관에 자료 제공을 한정하면 어쩌자는 것임? 


통계법을 자료 제공을 막기 위한 방패막이로 사용하는 태도가 잘못되었다고 봄. 통계법은 통계의 원활한 작성과 이용을 위한 것이지, 통계청의 콧대를 높이라는 법이 아님. 


통계법으로 통계 이용을 제한하는 해석이 왜 잘못인지, 통계법 적용의 예를 하나 들어 보겠음. 통계법에 따르면 인구총조사 (즉 센서스)에 정당한 이유없이 응하지 않을 경우 과태료 100만원에 처할 수 있게끔 되어 있음. 한국만 그런게 아니라 미국도 비슷하게 처벌함. 하지만 유사 이래 이 법으로 과태료를 물은 사람은 내가 알기로 단 한 명도 없음. 처벌을 목적으로 한 법이 아니라, 국민은 통계 작성에 협조해야 한다는 의무에 대한 선언적 의미가 있는 것. 센서스에 제 때 응하지 않는다고 통계법대로 과태료 100만원씩 때리면 볼만할 것임. 


이처럼 통계법은 통계의 원활한 작성과 활용의 편의를 위한 것이지, 자료 이용의 제한을 위한 규제가 되어서는 안됨. 





그럼 통계 원자료를 제공하는게 왜 중요한가. 


통계청은 통계 생산에 최고의 전문성을 가진 기관임. 통계 분석이 아님. 장담하는데 통계 분석 능력은 통계청 직원들보다 대학 교수들이나 연구원들이 앞섬. 


일반적으로 착각하는 것 중의 하나가 (a) 통계 원자료 생산과 (b) 생산된 원자료 분석 능력이 같은 건줄 아는 것. 양자는 매우 다름. 대학 교수나 연구원들은 전자의 능력이 별로 없고, 통계청 직원들은 후자에 특화되어 있지 않음. 통계청의 원자료 분석은 대부분 기술 통계임. 


여담으로 대학 교수 중에 통계 원자료 생산을 제대로 하는 분은 아마 KGSS를 생산하는 성균관대 김지범 교수일 것. 미국 시카고대 NORC에서 미국 GSS 자료 생산하다가 한국에 오신 분. 샘플링 기법을 제대로 적용해서 조사함. 그래서 KGSS가 매우 비싼 자료인데, 그 가치가 뭔지 대부분 모름. 여론조사 회사들도 분석 능력보다는 생산 능력에 전문성이 있는 기관임. 


반면 통계청은 복잡한 통계 모형을 이용한 자료 분석이 아니라, 복잡한 샘플링 기법을 이용한 자료 생산에 특화되어 있음. 이 때문에 자료 분석 훈련을 주로 받은 박사나 연구원들이 통계청에 취직하면 별로 기를 피지 못함. 통계청에서 박사들을 제대로 활용 못하는 이유는 이 조직이 잘못되어서가 아니라 통계청에서 필요로 하는 지식과 박사들의 지식이 불일치하기 때문임. 박사들이 통계청에 특화된 전문성을 확보할 때 까지 시간이 걸림.  


여기서 또 한가지 착각하지 말아야 하는 것은 기술통계가 중요하지 않다는 식의 태도임. 국가통계는 다변량 분석을 하는 것이 아니고 기술 통계로 기초적이고 연속적인 자료를 제공하는 것이 목적임. 이런 목적에 맞는 활동을 통계청이 수행함. 


그런데 이런 기술 통계를 넘어선 분석이나, 또는 기술통계라도 인구에 따른 교차 분석의 필요성이 있을 때는 원자료가 반드시 필요함. 기술통계는 샘플에 대한 가정 외에 많은 "추정"이 들어가지 않지만, 어떤 정책적 판단을 위해서는 기술통계를 넘어선 복잡한 다변량 분석으로 정책 효과 등을 추정할 필요가 있음. 


그런데 통계청이 정책 생산 분석 기관에 자료 제공을 꺼려하면 어쩌라는 것임? 


통계청이 원자료 제공을 꺼려하는 이유는 겉으로는 프라이버시 보호지만, 실제로는 자신들의 오류가 드러나거나, 통계를 둘러싼 논란의 대상이 되는 것을 피하려는 조직 보호, 조직 이기주의 논리일 개연성이 매우 높음. 


이 번에 이우진 교수와 다른 팀에서 분석한 대체 샘플과 유지 샘플의 격차도 통계 원자료가 없으면 불가능한 것임. MDIS의 일반 공개용 원자료에는 대체 샘플과 유지 샘플에 대한 변수가 없음. 어느 샘플이 대체된 것이고 어느 샘플이 연속된 것인지 알 길이 없음. 이우진 교수와 같은 분석은 샘플링에 대한 정보를 포함한 원자료가 없으면 아예 분석이 불가능함. 아마 심상정 의원이 통계청 원자료를 구해서 이우진 교수팀에게 제공했을 것. 그 때문에 가계동향조사의 문제도 제대로 밝혀진 것. 


그런데 통계청이 청와대에서 통계 분석에 특화된 연구원들에게 자료 분석을 시키기 위해서 통계청에 원자료를 요청한다고 통계 조작이고 간섭이라고 불만을 터뜨린다는게 말이 됨?





그럼 다른 나라에서는 어떻게 하나? 나라마다 다르지만 한국이 맨날 떠드는 천조국의 예를 들어 보겠음. 


가계동향조사와 가장 유사한 미국의 CPS는 대체 샘플과 유지 샘플에 대한 전체 정보를 공개함. CPS를 패널 자료로 만들 수 있는데 그 과정이 좀 복잡함. 그래서 미국 센서스국에서 원자료 전체를 미네스타 대학 인구센타에 제공해서, 미네소타 인구 센타에서 친절하게 CPS를 패널자료로 전환한 자료를 무료로 전세계 모든 사람들에게 제공함. 등록만 하면 데이타를 다운 받을 수 있음. 


한국 통계청은 청와대에서 자료를 달라고 해도 정권이 통계 조작할려고 한다고 노조가 성명서를 발표하는데, 미국은 전세계 모든 인민들에게 자신들의 자료를 공개하고 있음. 미네소타 대학의 자료는 추가 linking 작업과 harmonization 때문에 시기적으로 늦게 자료가 제공되기라도 하지만, NBER에 가면 아무런 가공이 없는 원자료가 1~2달 갭을 가지고 올라옴. 모든 학자가 능력만 되면 이 원자료를 분석할 수 있음. 


황수경 전청장 시기에 자료 제공을 특히 빡빡하게 했다고, 통계청의 독립을 지켰다고 기사에 나왔던데, 제가 보기에 이게 자랑거리가 아님. 오히려 욕먹을 일이지. 


정권이 통계를 조작하는 것은 결코 해서는 안되는 일이지만, 정권이 통계 원자료로 어떤 일이 벌어지는지 분석하는 것은 매우 권장해야 할 일임. "증거기반정책" 생산은 통계 분석없이 불가능함. 후자를 했다고 전자를 의심하고 공격하는 건 말이 안됨. 






마지막으로 평소 소신 반복함. 복지 국가는 통계 국가임. 통계 입국이 복지 입국의 길임. 복지를 제공할려면 통계가 필요하고, 세금을 부과할려면 통계가 필요함. 프라이버시를 강조하며 통계 원자료 활용을 막는 것은 복지의 발전을 막는 우회적 방법임. 그래서 앞으로 통계를 둘러싼 진보와 보수의 대립은 계속될 것으로 예상함. 진보는 데이타를 더 공개하자는 쪽으로, 보수는 프라이버시를 기치로 더 막자는 쪽으로. 


자료공개와 이용 얘기하면 빅브라더 떠올리며 프라이버시 강조하는게 진보인줄 아는 분들 있는데 그거 아님. 


본인이 진보적이면서 동시에 객관적이고 싶으면 통계 공부 열심히 할 것. 심지어 미국에 이런 웹사이트도 있음: 진보 통계돌이를 위한 직업 알선 사이트

Posted by 바이커 sovidence

헤럴드경제 기사: 무시못할 최저임금 긍정 효과..근로자가구 소득, 약 20년만의 최대폭 증가


최저임금으로 고용이 줄고 소득불평등이 악화되었다는 분석만큼이나, 최저임금 인상으로 노동자 가구 소득이 20년만에 최대 폭으로 증가했다는 분석을 믿기는 어려움.  


최저임금의 순효과로 치면 최저임금 언저리에 있는 노동자의 소득이 오르지, 전반적인 노동 소득이 증가하지는 않음. 


최저임금 인상으로 나라망할 것 처럼 난리를 치니까, 최저임금 인상으로 모든 노동자가 좋아진다는 구라도 나오는 상황. 





그럼에도 불구하고 타국가의 사례를 보면 최저임금과 노동소득이 정의 상관관계를 보이기는 하는데, 그 이유는 최저임금 인상으로 조성된 사회적 분위기(social norm) 때문일 가능성이 큼.  


한국에서 문재인 정부에서 최저임금이 크게 오르듯, 좌파정부와 노동자에게 힘을 실어주는 정부에서 최저임금이 오르기 때문에 노동 소득이 증가하는 것. 노동자 가구의 전반적 소득이 증가한 것도 좌파 정부에서 자본-노동 역학 관계의 변화 때문이라는 것. 


달리 말해 최저임금 때문에 노동소득이 늘어나는 것이 아니라, 최저임금 인상과 노동소득 인상이 모두 동일한 원인의 서로 다른 결과라는 것.   





그리고 한국에서 최저임금이 늘어서 불평등이 늘어났다고 난리들 치는데, 일반적으로 최저임금 상승과 불평등은 역의 상관을 보임. 


미국의 경우는 최저임금과 불평등의 상관관계가 Autor 등의 연구에 따르면 아래와 같음. 최저임금과 시간당 임금불평등이 거의 정확히 역 상관. 


미국만 그런게 아님. 미네아폴리스 Fed의 연구에 따르면 브라질도 마찬가지. 실제 최저임금 수준과 불평등은 역의 상관. 

 



한국에서 최저임금 인상에도 불구하고 불평등이 늘어나는 이유는 임노동 노동자의 비중이 다른 국가보다 낮은 독특한 상황과 관련이 있다고 추정됨. 


장기적으로 중대기업의 고용이 늘어날 수 있도록 규제를 줄일 필요가 있음. 골목상권 보호 같은 소상인 위주 정책으로 해결 안됨. 임노동자 비율이 높아지고 자영업이 감소하면 노동소득이 증가하고 불평등은 줄어들 것. 


단기적으로는 역시 삽질이 필요. 노동시장에서 이탈한 노인가구는 복지와 공공근로로 소득을 높여줄 수 있지만, 30-40대 핵심노동인력은 SOC 경제로 시간을 벌어줘야 함. 

Posted by 바이커 sovidence

선거 여론 조사가 다른 서베이와 다른 점은 바로 검증이 된다는 것. 누가 이기고 질 것인지 예측했는데 결과가 다르면 서베이에 뭔가 문제가 있었다는 것. 


측정 오류가 어디서 생기는지 원인을 파악하고 수정할 수 있는 기회를 가지기 때문에 선거 여론 조사가 다른 여론조사보다 돈도 덜 되고 기법도 단순하지만 여론조사의 꽃으로 주목을 받음. 


통계청의 국가 통계도 제대로 되고 있는지 검증할 필요성이 있음. 지금까지 여러 학자들이 국가 통계의 문제점을 지적했는데, 일부는 과도한 측면도 있고, 일부는 타당한 면도 있음. 


중요한 것은 국가 통계의 품질을 높이기 위한 연구가 이루어져야 한다는 것. 




그런 면에서 한국의 통계청은 문제가 있음. 한국 통계청은 매우 폐쇄적인 조직임. 데이타를 개방하고 검증을 받기 보다는 가능한 데이타를 감추고 조직을 방어하는 행태를 보여왔음. 해외 인구학자들에게 한국과 일본 통계청이 세계에서 가장 폐쇄적인 통계청이라는 비판도 있음. 


일례로 막대한 예산을 투입하는 센서스 조사도 자료를 대부분 개방하지 않고 자기들 임의대로 변수를 단순화 시켜서 공개함. 롱폼 조사 전체를 공개하지 않는 것 까지는 이해하는데, 2% 데이타의 변수를 그렇게 단순화시키는 이유는 도저히 이해할 수 없음. 국가적 낭비임. 


통계청의 논리는 국가 통계는 국가 비밀이라는 말도 안되는 주장. 미네소타 대학 인구센타에서 전세계 센서스 자료를 통합해서 원자료를 제공(https://international.ipums.org/international-action/samples) 하는데 미국, 영국, 프랑스, 중국 등 여기 있는 국가들은 국가 비밀을 누설한다는 얘기인지? 


그나마 MDIS에서 이 정도 공개하는 것도 유경준 청장 시절에 이루어진 것. 몇 년 안되었음. 유 청장의 자료 공개 결정에 통계청 간부들이 상당히 반대했었기에, 일부 학자들은 MDIS에서 자료가 공개되자 일단 모든 데이타를 무조건 다운로드 받기도 했었음. 언제 이 시스템이 폐쇄될지 모른다고 두려워하면서. 


통계청 가계동향조사에 문제가 있다는 것도 원자료가 연구자들에게 제공되고 추가 분석이 이루어지니까 논란이 되지, 예전 같으면 논란도 안되었음. 




통계청 자료의 품질 검증은 정책과도 밀접한 연관이 있음.


심상정 의원이 소득 격차는 고소득층이 주도 하고 있다고 주장했는데, 가계동향조사를 보면 한국의 소득 불평등 확대는 저소득층의 소득 하락에 의해서 주도되고 있음. 


어느 주장이 맞는 것임? 소득 격차가 고소득층의 소득 증가에 의한 것인지, 저소득층의 소득 하락에 의한 것인지에 따라 정책은 완전히 달라져야 함. 


사실 어느 게 맞는건지 잘 모름. 전국민을 통괄하는 통계청 자료와 임노동자를 대상으로 하는 행정자료의 결과가 너무 다르기 때문. 개인적으로는 그래도 전국민을 대상으로 한 통계청 자료가 더 전체 추세를 잘 반영한다고 보는데, 통계청 자료를 임노동자로 한정하면 어떤 패턴을 보이는지 검증할 필요가 있음. 


통계청 자료와 행정자료의 불일치의 또 다른 예로, 고용보험 피보험자수는 꾸준히 늘었다는 것도 있음. 고용보험이 제공되는 괜찮은 일자리의 수는 계속 늘었다는 것. 고용쇼크와는 완전히 다른 결과임. 고용의 질이 개선되고 있다는 청와대의 주장을 뒷받침하는 자료임. 


그렇다면 현재의 고용악화 데이타는 고용보험 대상이 아닌 자영업자나 일용직 노동자의 상황이 나빠서라고 해야 하는데, 30-40대 남성 노동자의 고용률이 낮아졌다는 통계청 경활조사 결과와 일치하지 않음. 


이러니 어느 통계를 인용하는가에 따라 상황에 대한 인식이 완전히 달라짐. 이런 혼란 와중에 국가 통계를 책임지는 통계청은 뭘 하고 있는거임? 





이런 문제들이 갑자기 생긴게 아님. 걍 계속 이렇게 지내온 것. 그런데 현정부가 소득주도성장을 하겠다고 고용 통계와 소득 분포 통계에 정부 차원에서 주목을 하니까 이 문제들이 도드라져 보이는 것. 


이 번 기회에 한국 통계청도 품질 검증도 좀 받고, 지금까지 크게 주목하지 않았던 소득 통계도 확대하는 그런 방향으로의 변화가 생겼으면 좋겠음. 

Posted by 바이커 sovidence