경향신문 기사: 이자비용 증가율 30% 넘어 역대 최고



경향신문 기사를 보면 가계 이자비용 부담률이 2018년에 갑자기 급증함. 그 때 이자율이 크게 오른 것도 아니고, 가계부채가 급등한 것도 아님. 작년 말에 기준 금리를 0.25%포인트 인상한 것이 가장 큰 변화. 이 정도 변화에 이자 부담이 급등한다는게 말이 됨? 


한참 논란이 되었던 가계동향조사 결과가 추가 논의도 없이 여러 기사에 보도되고 있음. 위 경향 신문 기사도 그렇고, 얼마 전에 보도된 고소득층은 소득이 늘고 저소득층은 크게 줄었다는 보도도 그렇고. 


2018년 가계동향조사 결과를 이용해 2017년과 비교하는 모든 결과는 이 전에 논의(요기요기요기요기 등)했던 문제점을 그대로 가지고 있음. 


저는 가계동향조사를 이용한 2017-18년 비교 결과는 거의 안믿음. 심각한 문제를 가지고 있고, 그 난리를 쳤는데도 불구하고 지금은 아무 문제가 없다는 듯이 기사화되는게 신기할 뿐. 





2018년에 60% 정도의 샘플을 추가했는데 이 신규 추가 샘플이 연속 샘플과는 상당히 다른 특징을 가지고 있음. 신규 샘플과 연속 샘플과의 불일치가 2018년 만의 특징인지, 이 전 해에도 그런 경향이 지속되었는지는 알기 어려운데, 적어도 2017-2018년에 추가된 신규 샘플이 2016-2017년 사이에 추가된 신규 샘플과는 크게 다르다는 것은 확실함. 


그 이유는 2018년부터 2015년 센서스를 기준으로 샘플링을 추가하는데, 2015년 센서스는 그 전 센서스와 조사 방법이 다름. 등록센서스로 전수 조사를 한 최초의 센서스가 2015년 센서스임. 이 전과 조사 방법이 다르기 때문에 2015년 센서스는 과거에는 파악되는 인구가 누락되고, 과거에는 파악되지 않던 인구가 추가되었을 가능성을 배제할 수 없음. 


2015년 센서스가 과거와는 다른 어떤 체계적인 차이가 있는지 검증해야 하는데, 아무도 안함. 왜냐하면 통계청과 정치인등을 통한 다른 경로로 자료를 구한 극소수 연구자 외에는 아무도 데이타가 없으니까. 





그럼 2015년 등록 센서스에 기반한 조사는 기반한 조사는 과거 조사와 어떻게 다른가? 센서스 전체 자료를 공개하지 않기 때문에 정확히 파악할 수는 없지만 짐작할 수 있는 결과가 하나 있음. 


한겨레에서 "집 아닌 집에 사는 사람들"이라는 훌륭한 기획 기사를 내보냈는데, 그 중 마지막 편에 보면 아래와 같은 그래프가 있음. 


그 중 가운데 있는 그래프가 센서스를 이용한 결과인데, 2005년에서 2015년 10년 사이에 비주택 거주자가 6만명 미만에서 40만명으로 6.5배 증가함. 그 이유는 "기타"로 분류된 주거지 거주자가 14배 증가했기 때문. 


이게 말이 되는 것임? 이렇게 심대한 변화는 실제 변화를 반영하기 보다는 조사 방법을 바꾸었기 때문에 그 전에 파악이 안되던 비주택 거주 빈곤층이 센서스에 파악되기 시작했기 때문일 가능성이 큼. 


전해 들은 얘기로 2015년 센서스가 이 전 센서스와 다른 가장 큰 특징이 주거형태라고 함. 






그럼 2018년 가계동향조사에서 2017년과 비교해 갑자기 이자부담이 증가한 이유는 무엇인가? 


가계동향조사 항목을 자세히 따지면 이자부담은 거의 전적으로 주택대출임. 짐작컨대 2018년 신규 샘플에 상대적으로 소득이 낮은 계층이 많이 포함되었고 이들 계층의 주택 담보 대출 비율이 높기 때문일 가능성이 있음. 


그렇다고 이자 부담이 증가하지 않았다는 것은 아님. 2018년 샘플에서 전반적으로 이주 부담이 우상향하는 것으로 미루어 이자 부담은 다소 증가했을 가능성이 큼. 하지만 그 정도가 30%에 이를 가능성이 매우 희박함. 


이자 부담 증가가 연속 샘플에서도 관찰되는지, 신규 샘플에서만 나타난 현상인지 확인할 필요가 있지만.... 뭐 통계청 외에는 데이타가 없으니... 

Posted by 바이커 sovidence

조선비즈 기자수첩: 9월 고용지표에 '일희일비' 한 경제부총리


김동연 부총리가 9월 고용지표가 생각보다 나쁘지 않을 것 같다는 언급을 했다고 비판하는 기사인데, 경제가 생각보다 안나쁠 것 같아서 조선이 짜증났나? 


아래는 조선비즈 칼럼의 일부: 


... 통계법 27조는 통계청 등 정부 부처가 공표를 앞둔 국가통계를 미리 누설하는 것을 엄격하게 금지하고 있다. 관련 부처가 해당 통계를 요청하더라도, 공표일 하루 전 낮 12시 이전에는 제공할 수 없다. ... 법에 따르면 11일 낮 12시 이전에는 기획재정부가 9월 고용동향에 대한 정보를 가지고 있을 수 없다. ...


이는 사실이 아님. 왜냐하면 예외 조항이 있으니까. 정확히 통계법에는 타기관 자료 제공에 대해 아래와 같이 쓰여 있음. 


④ 통계작성기관은 제2항 제2호 나목에 따라 작성된 통계를 제공하는 경우 공표 예정일 전날 낮 12시 이후에 제공하여야 한다. 다만, 국제기구의 요청을 받아 통계를 제출하는 등 국제협력을 위하여 필요하거나 경제위기, 시장불안 등으로 관계 기관의 대응이 시급하다고 인정하는 경우 등 대통령령으로 정하는 경우는 그러하지 아니하다.


실제로 대통령령 28521호에 보면 "경제위기 또는 시장불안 등으로 관계 기관의 대응이 시급한 경우"에는 사전제공의 예외 사항으로 규정하고 있음. 


지금 경제위기, 시장불안 등의 요인이 있는거 아님? 조선에서 경제위기, 시장불안 그렇게 떠들어놓고 이제와서 경제위기 아니라는 거임? 


지금 같은 상황에서 통계청이 데이타를 경제부처에 미리 제공하지 않는게 문제지, 제공이 문제가 될 수 없음. 지난 번 통계청장이 데이타를 미리 제공하지 않아서 통계청의 독립을 지켰다는데, 그거 아님. 


시장 불안이 큰 상황에서 통계청이 데이타를 미리 제공하지 않으면, 경제 관련 정부 기관의 대응력을 떨어뜨려 시장불안을 가중시키는 문제를 야기함. 데이타 미제공이 결코 자랑이 아님. 오히려 데이타 미제공을 문제 삼아야. 


최대한 사시를 뜨고 봐도 김동연 부총리가 통계를 누설했다는건데, 이것도 "관계 기관의 대응"의 일환으로 볼 수 있는거 아님? 


전날 12시 제공의 예외를 규정하는 대통령령의 타이틀이 "작성된 통계에 대한 사전 제공의 예외 및 공개 등"임. 사전 제공 뿐만 아니라 공개 등에서도 경제위기와 시장불안으로 관계기관의 대응이 필요하면 예외가 될 수 있음. 





조선비즈 칼럼에서는 김동연 부총리가 기대하고 희망한대로 9월 고용이 나쁘지 않으면 문제라고 하던데, 오히려 그 반대임. 김동연 부총리의 발언과 반대의 결과가 나오면 황당한 것. 김 부총리는 정확한 통계도 없이 시장 혼란을 야기한 것이 됨. 


문대통령도 좋은 일자리는 늘어났다고 어제인가 발언했는데, 대통령과 부총리가 데이터도 없이 시장에 잘못된 신호를 주면 이거는 심각한 문제. 이 때는 욕을 바가지로 먹어도 문재인 정부는 할 말 없음. 

Posted by 바이커 sovidence

한겨레 기사: 가사노동이 GDP 24%…여성 연 1077만원, 남성의 3배 일한다

경향신문: 주52시간 도입, 가사일 시작한 4050 남자들 늘었다


현재 한국 남성의 가사 노동 시간은 주 6시간 정도. 여성의 가사 노동 시간은 주 25시간 정도. 약 4배 격차. 통계청의 조사에 따르면 하루 노동 시간 격차는 161분. 


그런데 선진국은 남녀의 가사 노동 격차가 2배를 넘지 않음. 하루 노동 시간 격차로 따지면 대부분의 국가가 100분 이내. (아래 그래프는 하루 가사 노동 시간의 성별 격차. 소스는 요기.) 


모든 국가에서 여성의 가사 노동 시간이 남성보다 더 길지만 하루 격차는 90분 이내. 한국처럼 2시간 30분이 넘는 국가는 없음. 현재 한국의 성별 가사 노동 시간 격차는 선진국에서는 쌍팔년도 아니고, 잘해야 1950-60년대에나 겪던 일임. 





이것도 한국의 최근 통계가 가사 노동을 뭔가 좁게 정의했거나, 대상 연령을 한정했기 때문에 예상보다 격차가 적게 나온 것으로 보임. 한국에서 생활시간조사는 2014년에 실시되었는데 이 때 유배우 남녀의 가사 노동 시간은 남자가 50분, 여자가 259분으로 성별 격차가 209분 이었음. 한겨레 신문이 보도한 하루 노동시간 격차 161분은, 2014년의 조사와는 다른 대상으로 계산했을 것. 


어쨌든 앞으로 남성의 가사 노동 시간은 지속적으로 증가하여 지금보다 최소 2배, 현실적으로 3배쯤 늘어날 것. 대부분 예상하듯 여성은 가사 노동 시간이 줄어들고 일자리 노동 시간이 늘어나는 반면, 남성은 일자리 노동 시간이 줄고 가사 노동 시간이 늘어날 것. 


저녁이 있는 삶이란 일찍 퇴근해서 친구들과 어울리는 삶이 아니라, 부부 모두가 일찍 퇴근해서 가사 노동을 같이하는 삶이 될 것. 


이 경향은 너무 명확관화한 것이라, 여기에 저항하는 당랑거철이 되지 않도록 주의해야.  



Posted by 바이커 sovidence

얼마 전 심상정 의원이 국세청에서 받은 소득 천분위 자료를 블로그에 공개해 화제가 된 적이 있음. 한국에서 국세청의 aggregate 자료가 간혹 공개되는데 aggregate 된 원자료가 공개되든, aggregate 된 것을 재가공한 자료만 공개되든 대부분 국회의원을 통해서 공개됨. 


한국에서 국세청 세금 자료는 궁극의 비밀의 영역. 


그럼 다른 나라는 얼마나 공개하나? 


우선 미국부터. 


1960년대부터 미국은 국세청 자료 중 일부를 랜덤 추출해서 개인 식별자를 제거하고, 세금 단위를 rounding 한 후 상세한 세금 자료를 연구용으로 공개함. 자료는 통계 분석을 하기에 아무런 무리가 없게 큼. 2012년 기준으로 약 17만명의 상세한 세금 정보가 이 원자료에 포함되어 있음. 우리나라로 치면 17만명의 연말정산 원자료임.  


아무에게나 주는 것은 아니고 신청하고 비밀보장을 서약한 후 자료를 제공. 이 자료를 어떻게 통계 프로그램에서 분석 가능한 자료로 바꿀지는 NBER 웹사이트에 프로그램이 올라와 있음. NBER에 속한 학자들은 이 곳 unix system에 접속해서 세금 자료를 분석할 수 있음. 


국회의원을 통해서 재가공된 천분위 자료를 받고 말고 할게 없음. 


이 자료는 개인식별자가 없고, 아무런 인구학적 정보가 없기에 분석에 한계가 있음. 하지만 미국 국세청과 미국 통계청(Census Bureau)이 협력해서 SIPP 서베이 자료나 CPS 서베이 자료에 국세청 정보를 링크시켜둔 자료가 있음. 


역시 아무에게나 주는 것은 아님. 이 자료들의 접근은 보안이 훨씬 철저해서 연구자가 계획서를 내고, 오랫동안 심사해서 허가를 받아야만, 보안 장치가 있는 장소(ie, RDC)에서 쓸 수 있음. 


한국 통계청에서 그렇게 자랑하는 MDIS는 바로 이런 정보를 볼 수 있게 해주는 시설이 되어야 하는데, 한국은 이런 자료는 아예 공개를 안하고, 기껏해야 다른 나라에서는 인터넷에서 다운 받을 수 있는 수준의 연속샘플 식별자 같은 것을 볼 수 있는 장소로 사용. 


요즘 미국 통계청과 국세청은 SIPP이나 CPS의 샘플 사이즈가 작다고, 미니 센서스인 ACS에 세금 데이타를 붙이고 있음. 올 연말이나 내년 초 정도면 링크 작업이 끝날거라는 소문이 있음. 


위 세금 자료는 개인식별자를 모두 없앤 것이지만, 누가 연봉 얼마받는지 알 수 있는 자료도 있음. 바로 세금으로 월급받는 공무원들임. 요기에 가면 연방정부 공무원 개개인들의 연봉이 모두 올라와 있음. 관심있는 연방정부 공무원의 이름을 치면 연봉을 얼마받았는지 알 수 있음. 


많은 주정부들도 주정부 공무원들의 연봉을 공개함. 






유럽 국가들의 세금 정보 공개는 한국은 물론 미국보다 더 자세함. 


노르웨이는 전국민의 세금 보고를 인터넷에 공개함. 스웨덴도 전화 한통화면 개인의 세금 정산 보고서를 알 수 있음. 


스웨덴의 경우 전국민의 노동시장과 복지 행정자료 정보를 통합한 "노동시장 장기통합 데이터 (LISA)" 시스템을 갖추고 있음. 원자료 온라인 접근 시스템 (Microdata Online Acess: MONA)를 도입해서 연구자들이 인터넷으로 접속해서 등록행정데이타 정보를 분석할 수 있음. 


이 시스템에서는 이번 가계동향조사 논란처럼 데이타를 패널로 분석할 수 있느니 없느니는 논란조차 될 수가 없음. 모든 국민의 횡단면, 종단면 분석이 가능하니까. 16세 이상 전국민의 고용, 소득, 직업, 경제활동, 질병, 사회부조, 연금, 출생, 거주지, 거주지, 학력, 고용이 되었을 경우 일하는 기업의 정보까지 모두 통합되어 패널 분석이 가능함. 덴마크도 비슷한 시스템을 갖추고 있음.  


이처럼 복지국가는 전국민의 삶을 국가에서 추적하고 분석하고 어느 시점에 어떤 도움이 필요한지 연구할 수 있는 국가임. 


스웨덴, 덴마크만 이러는거 아님. 많은 북유럽국가들이 통계청에 행정자료 전체에 대한 접근 권한을 주고 이 자료를 연구에 이용할 수 있게 함.






영국은 ADRN (administrative data liaison service)라는 시스템을 갖추고 2013년부터 연구자들에게 행정자료 접근 서비스를 제공함. 미국 RDC나 한국 MDIS에서처럼 승인을 받아서 secured sites에 가서 이용하는 시스템인데, 한국과 달리 데이타 수준이 매우 높고, 미국과 달리 신청하면 웬만하면 다 승인해줌. 여러 문제점도 노정했지만, 행정자료를 이용한 연구에 획기적 전환점이 되었음. 





그런데 한국은 통계청에 타부서 행정자료에 대한 접근 권한은 통계법으로 거의 부여했는데, 이 데이타를 통계청 내부에서만 볼 수 있게끔 되어 있음. 믿거나 말거나 상당한 수준의 행정자료가 지금 통계청에 쌓이고 있음. 


통계청 자체 자료도 외부 공개를 꺼리니, 다른 부서에서 받은 행정자료는 말할 필요도 없음. 통계청에만 정보가 쌓이고, 이렇게 쌓인 정보가 공공을 위한 연구로는 활용이 안되는 그런 상태임. 정책 분석을 위한 자료로 활용할거 아니면 통계청에 전국민 데이타를 집중시켜서 뭐에 씀?  

Posted by 바이커 sovidence

2017년 대비 2018년 가계동향조사의 시계열 비교 적절성과 관련해서 서로 간에 아마 더 할 말도 없을 것으로 생각함. 비표집오차에 대해서 몇 가지 생각이 있지만, 가설 수준이고 별 관심도 없을 것. 관련 변수를 모두 포괄하는 원자료가 공개되지 않는 이상 논의가 겉돌 것으로 생각함.  


일부에서는 현 정부를 옹호하기 위해서 원자료 공개를 얘기한다고 생각하겠지만 (뭐 그렇게 생각하는게 이상한 것도 아님), 원자료 공개에 대한 제 생각과 활동은 좀 오래되었음. 통계청장 교체와 가계동향조사 신뢰성 논란이 일어난 김에 제가 원래 관심 있었던 주제를 쎄게 이슈파이팅한 것.   


아는 분은 다들 아시겠지만 지난 5년 동안 한국에 가거나 사회학자들을 만나기만 하면 했던 얘기가 바로 원자료 공개에 대한 것. 2015년에는 한국사회학대회에서 당시 회장님께 부탁해서 사회학의 데이타 문제에 대한 세션을 열고, 자료 이용에 대한 외국의 트렌드와 한국 사회에서 필요한 조치에 대해 제 의견을 발표한 적도 있음. 2017년에 올렸던 행정자료에 대한 이 포스팅이 그 때 발표의 일부였음. 이 때도 제가 워낙 세게 얘기해서, 당시 청중이었던 한 학자분은 저보고 한국 사회학은 데이타가 없어서 망할 것처럼 주장했다고 함.   


제가 아는 통계청 분들에게도 이 이슈에 대해서 말씀드린 적이 여러번 있음. 통계청에도 몇 번 찾아갔음. MDIS 만들기 전에 미국의 RDC 얘기도 많이 했었음. 


지금의 이슈 파이팅은 올해 갑자기 가계동향조사가 문제가 되어서 급조한 것이 아니라, 짧게는 5년, 좀 길게보면 10년 넘게 관심을 가지고 꾸준히 생각하고 오프라인에서 얘기했던 것임. 한국 사회에 아무 것도 기여하는거 없지만, 남들이 잘안하는 유일한 기여가 있다면 원자료 공개 문제일 것으로 생각했음.  


    




한국 통계청의 원자료 공개에 대한 거부감은 제가 알기로 외부에서 생각하는 것보다 훨씬 더 큼. 특히 정책 판단에 직접적 영향력을 행사하는 과장단, 국장단의 거부감은 꽤 심한 편임. 많은 분들이 김신호 과장님의 발언에 놀랐겠지만, 김신호 과장님의 태도는 전향적인 편으로 느껴짐. 김신호 과장님은 MDIS를 만든 유경준 전청장을 칭찬하지만, MDIS 만들 때 통계청 분들이 유경준 당시 청장을 마냥 칭찬한 것이 아님. 


통계청이 외부에서 온 청장의 지시나, 외부의 압력없이 자발적으로 원자료 공개를 확대할 가능성에 대해서는 솔직히 회의적임.  





한국에서 미국으로 유학오는 분들에게 이러저러한 얘기를 많이 하는데, 그 중 하나가 한국 연구를 main research area로 삼지 말라는 것. 두 가지 이유가 있는데 하나는 한국이든 미국이든 교수직을 구할려면 미국 저널에 논문 출간을 많이 해야 함. 그런데 한국은 연구 사례로 미국 저널에 크게 흥미가 있는 케이스가 아니라 논문 출간이 어려움.


다른 하나는 설사 이론적으로 흥미있는 질문을 해도 한국 데이타가 부실해서 일관성있는 논지를 피거나 믿을만한 통계 결과를 제시하기 어렵기 때문. 한국에 대한 논문을 여러 번 리뷰했는데, 데이타 단계에서 부터 도저히 사회학 유수 저널에 채택하라고 권고할 수가 없음. 


개인적으로는 한국 교육의 노동시장 효과를 연구하는게 있는데, 데이타마다 교육 프리미엄이 증가하는지 감소하는지 경향이 다르게 나옴. 어느게 맞는건지 알 수가 없음. 돌아버리겠음.   


한국에서 SSK로 상당한 비용을 사회과학계에 지원하고 있고, 학자들에게 SSCI 논문 출간하라고 독려하고 있음. 교수들은 SSCI에 논문이 없으면 정년 보장도 못받음. 그런데 통계청의 고퀄러티 원자료의 공개확대 없이 한국 사회과학이 발전하기 어려움. 장담하는데, SSK 예산 늘리는 것보다 통계청 데이타의 공개 수준을 높이면 SSCI에 출간되는 한국 사례 논문이 늘고, 한국 사회과학이 더 크게 발전할 것. 





요즘 사회과학 경쟁의 절반은 데이터 싸움이라고 해도 과언이 아님. 최근 사회과학의 최고 자료는 주로 스칸다나비아 국가에서 나오고 있음. 이 나라들에서 학자들에게 공개하는 데이타의 수준이 어마어마함. 전국민의 모든 데이타를 사회과학자들에게 허용하고 있다고 해도 과언이 아님. 북구학자들은 툭하면 전국민의 소득 증가율을 실제로 봤더니... 하면서 논문이 나옴. 세금데이타를 교육부 자료와 연결시키고, 헬스데이타까지 모두 붙여서 학자들에게 쓰게 하니 가능한 것. 물론 이 수준의 데이타가 일반 공개는 아니고 MDIS 같은 보안을 거쳐야 함. 


올초에 뉴욕에서 행정자료에 대한 소규모지만 학계의 거물들이 많이 참석한 심포지움에 어쩌다 참석한 적이 있음. 여기서 나온 얘기 중 하나가 언제까지 고퀄 데이타가 북구 국가에서 나오는걸 지켜봐야 하냐고, 미국도 그 인프라를 구축해야 한다는 것이었음. 그 심포지움을 주최한 Foundation 대표가 나와서 이 인프라 구축을 위해 연구자금을 넉넉히 지원할 의향이 있다고도 얘기하고. 가계동향조사의 연속표본 ID 공개도 안하는 한국과 대비가 되어도 너무 됨.


 

 


해외에 있는 사람이 주제넘게 얘기하는 것일수도 있지만, 해외에 있으니 이런 얘기도 할 수 있는 것. 밑에 어떤 분이 한국 사회 꼬이면 걍 미국에서 잘 살면 된다고 하는데, 맞는 말임. 한국의 네트워크 신경 안쓰고 하고 싶은 말 맘대로 할 수 있는게 저같은 사람의 장점임.


그래서 제가 제안하고 싶은 것은,


1. 여러 학회가 연대해서 통계청의 데이터 공개를 요구할 필요성이 있다는 것. 데이터 공개 Task Force를 학회가 연대해서 꾸리는 것도 한 방법. 


2. 여러 학회가 연대해서 국회의원을 상대로 로비를 할 필요가 있음. 데이터 공개를 하도록 법 개정을 해야 한다는 것. 프라이버시 문제나 국가 보안 문제가 아니면 모든 원자료를 공개하는 방식이 되어야 함.


3. 또 한가지 중요한 법개정은 3자 공여금지에 대한 지나친 제약을 풀어야 한다는 것. 통계청이 모든 행정자료의 허브인데, 데이터 3자 공여금지 때문에 설사 통계청에서 이 자료를 학자들에게 공개하고 싶어도 하기가 어려운 실정임. 


4. 그래도 통계청 자료를 활용하는데 보안상의 한계가 있으면 IPA (맥주 아님) 입법을 추진하는 것도 한 방법이라는 것. Intergovernmental personnel act라고 정부 기관끼리 내지는 정부 기관 밖(주로 대학)에 있는 사람을 한시적으로 part-time 공무원으로 만드는 것. 방학 동안에는 통계청 직원 신분을 획득하여 보안 문제 없이 데이타를 사용할 수 있게 해주는 방법이 될 수 있음.


블로그에서 이런 얘기 해봤자 별 소용없는거 알지만, 5년 동안 제가 아는 정상적인 통로로 아무리 얘기해도 별 반향도 없으니, 기회가 생긴 김에 담벼락에 외치는 심정으로 얘기한거임. 

Posted by 바이커 sovidence

제 질문에 대한 통계청 김신호 과장님 답글

김신호 과장님의 원래 페이스북 포스팅


이 글을 김신호 과장님에게 답장으로 쓸까 하다가, 그렇게 하지 않기로 했음. 답글이라고 달았지만 제 질문에 대한 답도 아니라, 별 의미도 없을 것 같고.  


사실 페친의 링크 덕분에 김신호 과장님의 글은 지난 주말에 읽어보았음. 패널 콘디셔닝 글을 안 읽어본건가? 설마 가계동향조사의 <횡단면 + 종단면> 성격에 대한 장문의 글도 올렸는데, 왜 이런 말씀을 하시지? 제발 좀 남의 글을 읽고 쓰시라고 여러번 말씀드렸는데, 설마 페이스북에 올린 이 글을 제 글에 대한 답으로 달지는 않겠지라고 생각하면서도... 뭔가 찜찜한 구석이 있었음. 페이스북의 그 글에 저에 대한 답글인 듯한, 그런 뒷목 땡기는 답답함.  





조직에서 터줏대감들이 임기제 굴러온 돌을 무력화 시키고 조직의 관행을 지킬 때 쓰는 흔한 방법이 있음. 하나는 의전으로 행사 뺑뺑이 돌리는 것. 이렇게 하면 업무 파악 못하고, 업무 지시도 못하고, 밖에서 의전만 받다가 임기 끝남. 다른 하나는 동문서답으로 굴러온 돌의 얘기가 쇠귀에 경읽기가 되게 만드는 것. 아무리 논리적으로 말해도 웃는 낯으로 예의를 갖춰서 딴소리하면 얘기하는 사람이 지쳐 나가떨어짐. 


상대방의 질문에 대답 안하고 자기가 하고 싶은 말 반복하는 것은, 미국 대통령 선거토론회 등 정치인 토론을 보면 늘상 쓰는 방법임. 토론이 목적이 아니라 언론플레이가 목적이면 흔히 쓰는 방법. 정치인들이 바보임? 질문에 대답도 못하게. 다 깊은 뜻이 있는 거임. 마찬가지로 중앙부처 과장이면 실무 관리의 정점인데, 이 분들이 바보임? 자기 영역에 대한 질문을 이해 못하게. 다 자기 조직에 맞는 생리가 있는거임.  






우야튼 김신호 과장의 글은 제 질문에 대한 답은 아니지만, 몇 가지 점에서 생각할 거리가 있음 (참고로 원래 제 질문은 요기에 쓴 제 글의 마지막에 있음). 


김신호 과장의 글은 소제목을 다는 등 논리적으로 글이 작성되어 내용이 쉽게 전달됨. 잘 쓰셨음. 포인트는 세가지임. 


첫번째는 가계동향조사의 분기 조사가 가지는 문제점.

두번째는 연속 표본 문제는 아니라는 것. 

세번째는 통계청 조직 확대가 필요하다는 것. 




우선 첫번째 포인트를 지적하며 쓴 분기 조사의 문제점은 다 동의함. 그런데 그게 이 번 2017-2018년 비교에 여러가지 튀는 통계가 나오는 이유임?


중학교 때 배우는 algebra에 이런게 있음. 

 (X1 + e) - (X2 + e) = (X1 - X2) 


여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. 


즉, 가계동향조사를 분기별로 하는 것은 문제지만, 지금까지 계속해서 그렇게 해왔기 때문에 올해 특별히 분기별 조사 때문에 시계열 비교를 못하는 것은 아니라는 것. 분기별 조사의 에러를 또 다른 분기별 조사의 에러로 상쇄해서 시계열 비교가 가능한 구조. 


따라서 첫번째 포인트는 다른 측면에서 필요한 논의긴 하지만, 시계열 비교의 적절성을 논의하는데 필요없는 물타기임. 





두번째로 연속 표본 문제가 아니라고 엉뚱한 말씀을 하는데, 아래 장문의 글에서 했던 말을 반복함.  


... 정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. ...






세번째가 사실 김신호 과장님 글의 백미. 가계동향조사를 다루는 공무원이 5급 서기관 1명, 주무관2명으로 3명인데, 이들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"하고, 조사내용도 "가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해"하다는 것. 따라서 조직확충이 필요하고, 이렇게 확충된 조직이 다른 간섭을 받지 않고 독립적으로 일할 수 있게 해줘야 한다는 것. 


가계동향조사 예산이 올해 28억이고, 내년에는 확대 개편을 위해 160억을 편성했다고 함. 국민 예산으로 28억짜리 조사를 했는데, 이 조사를 분석해서 공표하는 사람은 달랑 3명임. 정말 일당백의 용사들임. 공무원의 헌신이 느껴지심? 아무리 일당백의 용사라도, 이렇게 사람이 모자라면 모든 것을 카버할 수 없음. 중과부적. 


그런데 이거 좀 이상하지 않음?


이렇게 분석 인력이 보자랄 경우 28억짜리 조사를 활용하는 최선의 방법은 조사 원자료를 공개하고 여러 학자로 하여금 알아서 분석하게 함으로써 새로운 발견 사항은 없는지, 조사에 다른 문제는 없는지 알아내도록 하는 것. 사람이 적을수록 외부에 공개해서 분석을 풍부하게 해야 함. 


그런데 달랑 3명이 분석해 놓고, 통계청은 조사의 오남용을 우려해서 원자료 중 일부만 일반 공개함. 달랑 3명이서 전체 학계에서 어떤 변수는 오용하고 어떤 변수는 남용할지 판단해서 통제함. 


세상에 조사원자료를 공개하지 않으면서 프라이버시 보호도 아니고 학계의 오남용을 염려하는 논리는 또 처음 들어봄. 눈가리고 아웅이었지만 그래도 지금까지 그렇게는 얘기하지 않았음.


MDIS 이용자 센터에 가면 일반 공개하지 않는 데이타도 볼 수 있다는데, 여기가 걍 아무나 가서 앉아서 분석하는 곳이 아님. 신청하고, 허가받고, 보안검색 받아서 하는 곳임. 지금은 어떤지 모르겠지만 예전에는 설치된 통계 프로그램도 매우 제한적이었음.  


프라이버시 보호를 위해서 이런 장치가 필요하다는 것은 백퍼 동의함. 그런데 가중치 부여 등 오남용을 막기 위해서 MDIS 이용자 센터를 거치라고? 누가 들으면 MDIS 이용자 센터에서 어떤 분석을 어떻게 해야 하는지 친절하게 안내해주는줄 알겠음. 


세번째 포인트는 전형적인 조직보호의 논리임. 




그래서 모두가 알아야 할 오늘의 교훈: 

약은 약사에게, 처방은 의사에게, 데이타 오남용 판단은 통계청 공무원에게. 

Posted by 바이커 sovidence

최영섭 선생 페이스북 포스팅 


제 글에 대한 반박이라고 여러 분들이 링크도 걸어주고 메시지도 보내준 글임. 이 글에 대한 반박은 아래 패널 콘디셔닝에 대한 포스팅에서 다루었음. 이미 반박했는데도 계속해서 언급되고 질문이 들어오는 상황. 패널 콘디셔닝 포스팅도 나름 쉽게 썼다고 생각하지만 통계에 대한 상당한 지식이 있는 분들이 아니면 무슨 말인지 이해하기 어려웠을 것으로 판단됨. 그래서 제 능력이 닿는한 쉽게 왜 위에 링크한 글의 내용이 핀트가 어긋난 것인지 설명하고자 함. 쉽게 설명하려다 보니 이 글도 다소간의 스압이 있음. 





처음 글에서 이미 말했고 답글에서도 여러 번 반복했지만, 여기서 다시 환기시키면, 가계동향조사는 <횡단면 조사 + 종단면 조사>로 횡단면적 분석을 하는 특징을 가지고 있음. 


가계동향조사를 이해할 때 

1) 횡단면 조사를 목적으로 했다는 것과

2) 그런데 <횡단면 조사 + 종단면 조사>로 설계했다는 것, 

두 가지를 모두 이해해야 함. 통계청의 김신호 과장, 최영섭 선생 등 제 글을 비판한 거의 모든 분들이 1)에 대해서만 얘기하지 2)에 대해서 말하지 않고 있음.  


예를 들어 최영섭 선생은 다음과 같이 썼음: "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'에 대해서는 통계청 김신호 과장이 여러가지로 설명하고 있는데, 그걸 이해 못함. … 글쓴이(저)는 횡단면 조사의 표본 설계가 대체 어떻게 이뤄지는지 부터 다시 이해해야 함"이라고 저를 비판하고 있음. 


최영섭 선생의 비판과 달리 "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'" 전혀 없음. 패널 분석으로 가계동향조사를 비판하는 사람들이 이런 오해를 하고 있다고 생각하는 것 자체가, 가계동향조사 설계에 대한 이해의 부족을 드러냄. 


김영원 교수는 가계동향조사에 종단면적 성격을 추가한 것의 장점에 대해 간단히 언급하지만, 저와 경제학자들이 가계동향조사를 종단면 조사로 이해하고 있다는 식으로 잘못 비판하고 있음. 


가계동향조사의 패널부분을 따로 떼어내서 분석하는 사람들이 가계동향조사의 횡단면적 성격을 몰라서, 내지는 전체 표본의 모집단 대표성이 확보되면 시계열 비교에 무리가 없다는걸 몰라서 그러는게 아님. <횡단면 조사 + 종단면 조사>의 특성을 살려서 올해 표본에 문제가 있다고 제기된 부분을 검증하고자 하는 것. 최영섭 선생은 "표본의 연속성을 따지지 말고, 각 시점에서 조사가 제대로 되었는지를 따져야 함… 그 외의 논란은 초점을 벗어난 것임"이라고 자신있게 주장하는데, 그거 아님. 


이 글에서는 왜 횡단면 조사인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 설계했는지 설명하고자 함. 저를 비판하는 사람들은 그 이유를 모르는건지, 알면서도 무시하는 건지, 이런 설계의 장담점에 대해 전혀(내지는 거의) 언급하지 않음. 






그럼 최영섭 선생의 설명으로부터 시작해 보겠음. 


최영섭 선생은 예를 들면서, 100명이 전체 표본수인데 50명이 고소득층이고 50명이 저소득층일 때, 고소득층 50명은 유지되고, 50명 저소득층은 대체되면, 새로 대체되는 샘플이 50명 저소득층으로 들어와서 결국 전체 표본 100명이 저소득층과 고소득층을 포괄하냐가 문제지, 연속샘플과 신규샘플의 격차는 이슈가 아니라고 설명함. 연속 샘플만 보면 고소득층이고, 신규 샘플만 보면 저소득층이라 마치 두 샘플의 결과가 매우 다른데, 연속 표본과 신규 표본을 비교하는 건 엉터리라는 것. 무척 상식적인 주장처럼 들림. 


하지만 이런 설명은 도대체 왜 횡단면 비교 목적인 가계동향조사에 <횡단면 조사 + 종단면 조사>로 샘플링하는 설계를 도입했는지 이해하지 못하기 때문에 하는 용감한 주장임. 아마 극단적인 사례를 예로 든 것이겠지만, 이런 극단적인 사례를 피하라는게 바로 <횡단면 조사 + 종단면 조사>로 샘플링하는 이유임. 극단적 사례로 이 표집법을 설명하는게 바로 이 표집법에 대한 이해의 부족을 노출함. 자신있게 말하는데 만약 통계청에서 최영섭 선생이 예를 든 식으로 지역이든, 계층이든, 연령이든, 다른 어떤 다른 특성이든 가계동향조사의 연속 표본과 대체 표본의 차이가 극명하게 차이나게 설계했다면, 담당자는 업무 과실 내지는 무능으로 징계를 먹어 마땅함.  


횡단면 조사보다 종단면 조사가 돈도 많이 들고 어려움. 그럼에도 불구하고 <횡단면 조사 + 종단면 조사>로 가계동향조사 설계를 하는 이유는 이렇게 하면 시계열 비교의 안정성이 크게 높아지기 때문. 





그럼 왜 <횡단면 조사 + 종단면 조사>가 시계열 비교의 안정성을 높이는가? 


샘플 조사는 항상 여러가지 에러를 동반함. 최대한 랜덤 샘플링을 해도 순수 확률적 샘플링 에러가 있을 수 있음.  좀 더 심각하게는 어떤 이유에선가 샘플링이 랜덤이 아니고 편향될 수도 있음. 조사 방법을 바꾸면 랜덤 샘플이라도 비표집 에러 때문에 결과가 달라질 수 있음. 횡단면 조사에 종단면 성격을 삽입하면 랜덤 샘플 에러를 줄일 수 있고, 설사 일부 연도 표집에 편향이 있더라도 편향의 효과를 분산시킬 수 있음. 그래서 overtime comparison이 안정됨. (비표집 오차는 뒤에 간단히 얘기하기로 함. 이건 또 다른 이슈가 있음)


통계 101에서 배우듯 샘플링에 특정 편향을 배제하는 최선의 방법은 랜덤 샘플링임. 가계동향조사처럼 시계열적 비교를 목표로 할 경우 매년 무작위 표집을 해야 함. 만약 3년마다 1/3씩 샘플을 교체하면 각 연도별 1/3의 샘플이 아무런 작위 없는 랜덤이 되도록 설계해야 한다는 것. 이렇게 하면 설사 특정 해에 일반적으로 기대하는 범위를 벗어난 확률적 표집오차 내지는 편향이 있다 할지라도, 매년 1/3씩 랜덤하게 샘플을 교체하면, 표집의 bias 뿐만 아니라 표집오차도 헤징이 됨. 투자에 대한 격언으로 모든 계란을 한 바구니에 담지 말라는 말과 비슷한 것. 표본과 관련된 오차를 분산시킴으로써 시계열 비교의 안정성이 높아짐. 


이렇게 하지 않는 잘못된 예를 들자면 다음과 같음. 첫 해는 고소득층, 두번째 해는 중산층, 세번째 해는 저소득층을 교체하면, 첫해 고소득층을 추출할 때 생겼던 어떤 에러의 특성이 3년간 지속되고, 그 다음 3년은 중산층, 다음 3년은 저소득층의 에러의 특성이 지속됨. 매 년 1/3의 샘플을 랜덤하게 교체하는 것에 비해 소득 구간별 소득 측정의 3년 단위 에러 가능성을 높임. 이렇게 되면 교체 차에 나타난 소득 계층의 변화가 샘플 교체로 인한 것인지, 실제 변화를 반영하는 것인지 구분하기 어렵게 됨. 예를 들어 2015년 저소득층 샘플에 무슨 이유에선거 체계적 편향이 있었는데, 2018년 대체 샘플에서는 이 체계적 편향을 제거하고 제대로 샘플링을 했다면, 2017년과 2018년을 비교할 때 저소득층의 소득증감이 2015년에 잘못했던 체계적 편향 때문인지, 2017년과 2018년의 실체적 변화 때문인지 알 수 없게 됨. 


물론 샘플 추출에 에러가 전혀 없다면 이런 문제는 발생하지 않음. 하지만 에러가 전혀 없다는 보장이 없기에 가계동향조사처럼 횡단면+종단면으로 매년 1/3씩 샘플을 교체하는 것으로 설계해 에러 가능성과 정도를 줄이는 것.  


이 때문에 매년 1/3씩 샘플을 교체하고, 한 번 샘플에 들어오면 3년 유지를 목표로 하는 가계동향조사에서 각 1/3 샘플은 최대한 랜덤으로 유사한 특징을 가지게끔 설계해야만 함. 가계동향조사가 실제로 그렇게 설계했는지는 모르겠음. 하지만 통계 생산 전문가인 통계청이니 당연히 그렇게 했을 것으로 믿고 있음. 물론 매년 추계인구가 바뀌므로 신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함. (3년 유지 패널인데 탈락하기 때문에 추가하는 샘플도 있는게 논의의 편의를 위해 일단 그 이슈는 제외함). 


(여기서 잠깐. 통계를 아는 사람들도 가끔 잘못 이해하는 경우가 있는데 인구 통계에 대한 사전 정보가 있으면 이에 맞춰서 샘플을 조정할 수 있음. 이렇게 하면 오차가 줄어듦. 앞에서 완전 랜덤으로 샘플링해야 한다고 말한거 보고, 통계청에서는 인구에 대한 사전 정보 이용한다고 제가 뭔가 잘못안다는 식으로 뜬금포 날리기 없기.)





만약 아이디얼한 상황을 가정해서, 표집의 순수 확률적 랜덤 에러가 예외적으로 크지 않고, 편향이 없어서, 연속 표본과 대체 표본을 합친 전체 표본이 모집단을 잘 대표한다면 최영섭 선생의 주장처럼 연도별 표본 대체를 어떻게 하였든 전체 표본으로 시계열적 비교를 하는데 큰 문제가 없음. 아이디얼한 경우에는 횡단면 비교 목적인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 시행할 이유도 줆어듦. 


물론 이 경우에도 표집의 순수 확률적 랜덤 에러가 일반적 허용 범위를 벗어날, 매우 낮지만 그래도 0으로 만들 수 없는 "확률"은 항상 존재함. 누구나 복권을 사서 횡재할 확률이 있는 것과 마찬가지임. 그래서 통계 해석은 늘 확률로 해야함, 진리에 대한 확정이 아니고.  


다른 한 편 연속표본이나 대체표본이나 전체 모집단을 잘 대표하고, 시계열적 변화를 잘 반영한다면 가계동향조사의 패널 표본을 종단면적으로 분석해도 아무런 문제가 없음. 노말한 상황에서 전체 저소득층의 소득이 줄었는데, 연속표본으로 남은 집단만 소득이 오르는 일은 없음. 그러니까 연속표본과 대체표본에 아무런 바이어스가 없는 상황을 가정하고 주장하는 최영섭 선생의 주장은 가계동향조사를 패널로 분석해도 횡단면으로 분석할 때와 변화 방향이 일치할 것으로 예견할 때도 필요한 가정(=조건)임. 


그런데 표본자료에서 이 가정이 실제로 성립하는지, 아니면 뭔가 이 가정과 다른 에러가 있는건지 어떻게 앎? 불행히도 이 가정에 대한 직접적 검증은 불가능함. 통계 이론적으로 가정하는 것. 하지만 간접적 검증의 방법이 있음. 바로 전체 표본과 연속 표본의 결과에 상당한 차이가 나면 이 가정에 문제가 생겼다는 신호임. 바로 여기서 가계동향조사의 종단면 연속 샘플을 따로 떼어내서 혹시 에러는 없는건지 검증해볼 가능성이 생기는 것.  


정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. 






통계청에서 하는 어떤 조사도 일부러 편향된 표집을 하지는 않음. 최선을 다해 랜덤 샘플링을 하지만 그럼에도 불구하고 조사 방법이 바뀌면 뭔가 변화가 생기는 것. 표집오차일 수도 있고, 비표집오차일 수도 있음. 비표집오차의 예로  5,500개 샘플을 8,000개 샘플로 늘리면서 조사 품질 관리에 문제가 생길 수도 있음. 샘플수가 늘어나면 표집오차는 줄어들지만, 관리비용도 늘어나기 때문에 비표집오차는 증가함. 


가계동향조사는 작년과 올해 우여곡절을 겪었고, 표본 구성이 달라짐. 가구 추계도 2010년 베이스에서 2015년 베이스로 바뀌면서 변화의 정도도 커짐. 이렇게 변화가 있을 때 가계동향조사의 <횡단면 조사 + 종단면 조사> 설계는 변화된 표집으로 시계열적 비교의 안정성이 확보되는지 확인할 수 있는 중요한 수단을 제공함. 


위에서 설명했듯 표본 변화가 전체 추세에 영향을 끼치지 않았다면, 전체 표본의 시계열 변화와 연속 표본의 시계열 변화가 질적으로 동일한 결과가 나와야 함. 


그런데 이우진 교수가 검증해보니 연속 표본의 결과가 전체 표본과 상당히 다르게 나온 것. 그래서 내릴 수 있는 결론은 연속 표본의 결과가 맞다가 아니라, 전체 표본을 이용한 시계열 비교를 신뢰할 수 없다는 것임. 아래 그래프에서 보듯 평균값도 이상하게 튐. 


그러니 횡단면 조사의 표본 설계를 어떻게 하는지 모르고 연속 표본의 사이즈로 가계동향조사의 시계열 비교가 가능한 것으로 제가 오해하고 있다는 최영섭 선생의 비판은, 최영섭 선생이 <횡단면 조사 + 종단면 조사>이루어진 횡단면 조사 표본 설계의 원리를 잘 모르고 한 비판일 가능성이 농후함. 





Ps. 참고로 아래 올린 패널 콘디셔닝은 연속 표본과 전체 표본에 차이가 날 수 있는 한가지 잠재적 메카니즘에 대한 글임. 지금 쓴 이 포스팅 내용을 배경 지식으로 가지고 있어야 제대로 이해할 수 있는 얘기임. 


Pps. 최영섭 선생의 비판 중 첫번째 포인트인 면접식 도입이 2017년이라는 지적은 옳음. 다만 이 방식과 샘플 확대가 결합할 때 어떤 비표집오차를 일으킬지는 또 하나의 체크포인트. 


이런 가능성이 있음. 원래 기장식이던 가계동향조사에 2017년부터 면접식을 도입. 그런데 면접식은 기장식보다 면접원 통제라는 새로운 요소가 가미됨. 면접원에 따라 결과가 바뀌는 비표집오차의 가능성이 추가됨. 면접원의 품질 통제는 상당한 관리 비용이 들어감. 


그런데 2018년에 2017년에 비해 가계동향조사의 표본수가 크게 증가함. 이에 따라 면접원의 품질에 따른 비표집오차의 개입 개연성도 크게 증가됨. 즉, 비록 면접식의 도입은 2017년이지만, 이러한 면접 방식의 변화가 조사 결과에 더 크게 영향을 끼칠 가능성은 2018년일 수도 있다는 것 (꼭 그렇다는건 아님. 통계청에서 응답 방식에 대한 원자료를 제공하면 이것도 체크해볼 수 있음).  


그러니까 타당한 지적인 최영섭 선생의 첫번째 포인트도 2018년의 표본수 확대라는 문제까지 고려해서 좀 더 깊이 들어가면 그렇게 단순하게 조사방식 변경 효과는 무조건 2017년에 나타나야 한다고 주장할 수 있는게 아님. 

Posted by 바이커 sovidence

아래 어떤 분이 다음과 같은 답글을 달았음: 


"‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까."


연속 샘플을 이용한 이우진 교수의 결과와 전체 샘플을 이용한 통계청의 결과가 다른 이유는 소득이 오르고 기분이 좋은 사람만 계속 가계동향조사에 응하고 그렇지 않은 사람은 표본에서 탈락하기 때문이라는 것. 충분히 의심해 볼만 지적이고, 제 글에 문제가 있다고 비판하는 전문가 분들도 아마 이 점을 염두에 두고 있을 것으로 추정됨. 


논의가 논의이다 보니 어쩔 수 없이 자꾸 전문 용어 쓰게 되는데, 이렇게 패널조사에서 계속 남는 사람들은 탈락한 사람과 달리 살람살이가 좋아졌다던가 등의 뭔가 편향이 있다는걸 panel conditioning bias라고 함. 


그런데 이 논리에는 두가지 생각해볼 점이 있음. 


예를 들어 전체 인구로 보면 소득이 10% 줄었는데, 소득이 10% 오른 사람은 패널에 남았다고 가정해 보자. 이 경우 연속 패널이 2/3이고, 신규 패널이 1/3이면, 


(A) 전체 소득 증가율 = 0.10*2/3 + (-0.10)*1/3 = +0.033


소득이 3.3% 오른걸로 나옴. 


하지만 다른 모든 조건은 동일한데 연속 패널이 1/3이고, 신규 패널이 2/3로 패널 구성만 바꾸면, 즉 전체 인구로보면 소득이 10% 줄어든 상황은 동일한데, 패널의 구성만 바뀌었다고 치면, 


(B) 전체 소득 증가율 = 0.10*1/3 + (-0.10)*2/3 = -0.033


소득이 3.3% 줄어든걸로 바뀜. 


(A)나 (B)나 실제 변화를 정확히 반영하지 못하는 것은 마찬가지지만, 패널 구성에 변화만 없다면 시계열적 변화로 변화의 방향을 판단할 수는 있음. 하지만 패널 구성이 변화하게 되면 실제 변화와 패널 구성 변화가 혼재되어 버림. 


제 글에 가중치 문제 제기하는 분들이 많은데, 패널 콘디셔닝이 있을 때 신규패널과 연속패널의 구성을 바꾸면 가중치를 완전히 바꾸는 효과가 있음. 이 경우 패널 구성의 큰 변화가 있을 때 시계열적 변화는 의미가 없어짐. 


따라서 이우진 교수의 연속 샘플에서 저소득층의 소득이 올라간 것으로 나온 결과는 가계동향조사의 연속샘플의 어떤 선택 편향이 있는걸 고려하지 않아서 나타난 잘못된 결과라고 주장하는 사람들도 이우진 교수의 결론인 올해의 가계동향조사의 연도별 비교는 의미가 없다라는 주장에는 동의해야 정상임. 그런데 이 분들은 패널 콘디셔닝 문제를 암시하면서 이우진 교수가 틀렸고, 통계청의 기존 발표에 문제가 없다는 식으로 주장하고 있음. 





만약 연속 샘플과 전체 샘플에 차이가 없다면 이런 문제는 없음. 그 때문에 이우진 교수는 연속 샘플과 전체 샘플의 격차를 검증해 본 것. 이 논리를 모르고 연속 샘플과 전체 샘플은 다르다는, 통계를 제대로 이해하는 사람들 끼리 보면 기초적 지식에 해당하는 주장만 되뇌이면 곤란. 


또한 이우진 교수가 가중치를 제대로 적용하지 않았을 수도 있음. 이건 이우진 교수가 답해야 할 것. 헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임. 





다음으로 2017년과 올해 사이에 panel conditioning bias가 특이하게 컸다고 생각할 수도 있는데, 이 경우 2017년 가계동향조사의 샘플의 저소득층  attrition rate이 다른 해보다 유난히 컸어야 함. 이는 가계동향조사 샘플의 attrition에 정보를 모두 가지고 있는 통계청에서 바로 확인 가능함. 




어떤 경우가 맞는건지, 패널에 대한 변수가 제대로 있어야 검증할 수 있는데, 통계청에서는 일반 공개 원자료에서 이러한 bias를 알 수 있는 정보를 전혀 제공하지 않음. 


통계청에서 학자들이 가중치를 제대로 안줄까봐 원자료 제공을 꺼린다는데, 원자료를 공개하고 다수 학자들이 이를 쓰게하면 그 전에는 몰랐던 새로운 사실과 문제점을 알게되고, 이런 문제점을 개선하다보면 통계의 품질이 올라감. 한국에서 통계 품질 개선이 더딘 이유 중의 하나가 원자료를 공개하지 않아서 문제가 어디에 있는지 제대로 파악하지 못하는 것임. 


뭐 그래서 저의 결론은 항상 동일. 변수를 숨기지 말고 원자료를 공개합시다~

Posted by 바이커 sovidence

김신호 과장님, 


직접 댓글 (요기, 요기, 요기, 요기, 요기, 요기) 남겨주셔서 대단히 감사합니다. 통계청 주무부서를 거친 과장으로 답답해도 무시할 수 있는데 직접 댓글 남기고 소속을 밝힌 것은 큰 용기가 필요한 일이라고 생각됩니다. 


외람되지만 몇 가지 점에서 말씀드리고 싶은게 있고, 세 가지 질문도 드리고 싶습니다. 


우선, 이 블로그를 체크하시는 기자 분들이 간혹 있습니다. 통계청 과장 신분을 밝히고 댓글을 남기실 때는 혹시 책잡힐 것은 없는지 각별히 유념하시는 것이 좋습니다. 가계동향조사와 가금복을 과장시절에 직접 담당하셨다고 하니, 아래 남겨주시고 또 남겨주실 것으로 기대하는 글들이 통계청 공식 입장은 아니더라도, 통계청에 계신 핵심담당자들의 지배적 의견을 반영하고 있다고 대부분 믿을 것입니다. 


앞서도 두 번 말씀드렸지만 부디 글을 읽고서 답변하시기를 부탁드립니다. 아래 글에서 명확히 밝혔듯, 연속표본을 이용한 분석은 고려대 이우진 교수님이 한 것입니다. MDIS에서 제공하는 원자료에는 연속표본인지 신규표본인지에 대한 정보가 없기 때문에 저는 이 분석이 불가능합니다. 그렇기에 저에게 연속 표본을 이용한 분석에 가중치를 제대로 주었냐는 질문은 적절치 않습니다. 


과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다. 참고로 저는 사회과학자들을 대상으로 가중치를 어떻게 주어야하는지에 대한 특강을 한 적도 있습니다. 


저에게 표집에 대한 전체 정보가 있는 원자료를 주시면 retention에 대한 가중치를 보정한 후의 연속 샘플 결과를 분석할 수 있고, 2017년과 2018년의 모집단 추정 변화에 따른 효과를 통제한 후 2018년에도 2017년과 모집단 분포에 변화가 없다고 가정할 때의 counterfactual한 변화를 분석할 수 있습니다. 현재 논란이 되고 있는, 2015년 센서스에 기반한 가구변화, 연속샘플과 신규샘플의 특정 변화를 모두 통제한 후에 결과에 일관성이 있는지 분석해 볼 수 있습니다. 


고려대 이우진 교수가 가중치를 제대로 부여하여 분석했는지 그러지 못했는지, 가중치를 바꾸면 결과가 달라지는지를 저 같은 사람에게 원자료를 주시면 검증해 볼 수 있습니다. 더욱이 한국에서는 보수적인 정치적 입장을 가진 학자가 진보적인 분 보다 훨씬 많습니다. 이우진 교수의 분석이 잘못된 것이면, 보수적인 학자들이 알아서 반박할 것입니다. 그런데 지금은 자료가 없으니 누구도 이우진 교수에 대해서 반박하지 못하는 것 아닙니까.


그러니 학자들에게 원자료를 제공하면 retention rate에 따른 가중치 변화를 제대로 보지 못할 것이라는 염려는 하지 않으셔도 좋습니다. 모 기자처럼 원자료를 줘도 뭘 제대로 모르고 엉뚱한 소리를 하는 사람도 물론 있겠지만, 이 때문에 연속표본인지 대체표본인지를 알 수 있는 식별자 자체를 제공하지 않는 통계청의 결정은 잘못된 것입니다. 좋게 표현해 구더기 무서워 장 못담그는 노파심이고, 심하게 말해 국민 세금으로 만든 공유자산을 사유재산처럼 독점하는 것입니다. 이런 행태는 프라이버시 보호도 아닙니다. 논란거리를 차단하겠다는 조직 이기주의일 뿐이죠. 


학자들도 공무원을 무시하는 경향이 많으니 과장님 개인으로써는 매우 불쾌할 수도 있고, 피차일반이라고 할 수도 있으나, 과장님과 통계청의 결정은 공적인 것입니다. 제대로 분석하지 못하고 엉뚱한 소리하는 학자나 기사에 대한 대응은 그것대로 필요한 것이지, 원자료를 제공하지 않으면서 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는"다고 말하는 것은 이해하기 어려운 결정입니다. 이런 마인드를 가지고 있으니 정책 기관과 청와대에서 원자료 전체를 달라는 걸, 마치 통계청의 권한을 침해한 것으로 느끼는 것 아닙니까. 





여기서 질문 드리겠습니다. 기우에서 미리 말씀드리면 일반론을 반복하지 마시고 질문에 답변해주실 것을 부탁드립니다. 과장님이 링크해 주신 글들은 통계학 처음 공부하는 학부생이나 석사 과정생들이 읽으면 도움이 될만한 정도의 일반론입니다. 그 수준의 얘기가 아닙니다. 논의를 이해하지 못해서 일반론을 반복하는 것인지, 알지만 물타기 할려고 하는 건지 모르겠지만, 둘 다 좋은 신호는 아닙니다. 본 글에서 연속표본과 전체표본에 차이가날 여러 가능성에 대해서 언급해 두었습니다. 원자료를 제공하지 않는 이상, 통계청에서 소상히 연속표본과 전체표본에 차이가 나는 이유를 밝혀야 합니다. 


그럼 진짜로 질문 드립니다. 


첫번째로 통계청에서 탈락 표본이 생겨서 대체할 때 어떤 변수를 감안하여 대체하시나요? 대체 표본의 attrition 효과를 고려하여 가중치를 구하시나요? 그렇다면 가중치를 구할 때 통제하는 변수는 무엇입니까? 대체 표본을 산정할 때 탈락 표본의 소득도 명시적 고려 사항입니까? 


두번째로 소득에 따른 attrition rate의 차이가 얼마나 되나요? 만약 소득이 대체 표본의 명시적 고려사항이 아니라면, 소득에 따른 탈락률의 차이가 불평등 측정에 어떤 영향을 끼친다고 생각하고 계십니까? 추가 샘플이 이 번 처럼 많을 경우 이 효과가 어떤 영향을 끼친다고 가정하시는가요? 실제로 그런 분석을 해보셨습니까? 


마지막으로 과장님 말씀은 가중치를 제대로 주고 분석하면 통계청에서 원래 발표했던 내용이 연속표본에서도 재현되는 것처럼 들립니다. 그게 아니라면 반복해서 말씀하시는 가중치 얘기는 동문서답이 됩니다. 그런 결과가 나옵니까? 





학자들 사이에서도 제가 논쟁을 할 때 매우 직설적이고, 단도직입적으로 쟁점을 단순화해서 제기하는 것으로 악명이 높습니다. 저는 그래야 차이가 분명해지고 서로 합의하고 논쟁할 수 있는 것과, 입장의 차이를 확인하고 정리해야 하는 것들이 분명해 진다고 느껴서요. 이런 식의 어법이 대민상대가 많은 공무원들의 일반적인 언어구사법이 아니라 당혹스러우실 수도 있다고 생각됩니다. 널리 양해해주시기를 부탁드립니다. 


다시 한 번 용기를 내서 답글 써주신 것에 감사드립니다. 추가로 시간내셔서 제 질문에 구체적인 답변을 주시면 저 뿐만 아니라 다른 많은 분들에게, 나아가 현재의 국가적 논란을 정리하는데 크게 도움이 될 것입니다. 

Posted by 바이커 sovidence

통계청장을 왜 교체했는지, 교체가 정당했는지 여부는 각자 알아서들 판단할 일. 아무리 논쟁해도 이거는 결론이 안날 것.


논쟁을 하고 정리해서 대략 합의가 가능한 점들은 

(1) 가계동향조사의 시계열적 비교에 문제가 있었느냐는 점과,  

(2) 데이타 제공을 둘러싼 통계청의 태도가 적절했냐는 점. 


(1)과 (2) 모두에 문제가 있어도 통계청장을 교체하지 않을 수도 있고, 둘 다 문제가 없어도 교체할 수 있는 것. 이념에 관계없이 위 두 가지를 같이 논의할 수 있는 사람이 있고, 그럴 수 없는 사람이 있음. 후자의 사람들은 뭐... 


자 그럼 통계의 객관성에 대해 상당한 신념을 가지고 있는 제가 왜 통계청장 교체에 대해 별 불만이 없는지, 합의 가능한 위 두 가지 문제에 대한 좀 더 자세한 제 생각을 말씀드리겠음. 


블로그 글은 가능한 요점만 간단히 짧게 쓸려고 하는데, 워낙 논란인 주제인데다, 가계동향조사 조사방식이 일반적 상식으로 알고 있는 내용이 아니다 보니, 이 번 포스팅은 좀 길고, 다른 포스팅보다 좀 지루할 것. 






가계동향조사를 둘러싼 논란의 핵심은 2016-2018년 데이타의 연도별 비교가 적절하냐는 것. 통계청장의 교체를 둘러싼 논란은 각자의 판단 영역이지만, 가계동향조사의 연도별 비교 적절성 여부로 논쟁을 좁히면, 적절하지 않다는 입장이 받아들여질 가능성이 매우 농후함. 왜 그런지 한 번 보겠음. 


가계동향조사는 연도별 비교를 염두에 두고 설계되어 있음. 한 번 조사대상 샘플 가구가 되면 3년간 지속해서 조사함. 매년 1/3씩 기존 샘플을 탈락시키고, 1/3씩 신규 샘플을 추가하는 설계. 그런데 연도별 샘플 교체도 한꺼번에 하는 것이 아니라 6개월에 걸쳐서 월별로 조금씩 바꾸게 되어 있음. 따라서 연도별 비교를 하면 적어도 2/3 정도는 작년에도 있었던 샘플임. 표본 설계상 연도별 비교에서 한꺼번에 샘플이 바뀌는 일이 없고, 설사 표집오차가 있더라도 연도별 비교에 큰 무리가 없게끔 설계되어 있다는 것. 


이 때문에 가계동향조사는 횡단면 조사이지만, 종단면 조사의 성격을 가지고 있음. 2/3 정도의 샘플은 연도별 종단면 변화를 추적할 수 있게끔 설계되어 있음. 미국으로 치면 4-8-4 Outgoing rotation group으로 설계된 Current Population Survey(CPS)와 비슷함. 뒤에 자세히 얘기하겠지만, 미국은 CPS의 이런 특성을 연구자들이 모두 이용할 수 있게 자료를 제공하는데 한국 통계청은 그러지 아니함. 


어쨌든 이렇게 연도별 비교에 아무런 문제가 없어야 정상인 조사설계가 작년에 가계동향조사를 없애니 마니 하면서 큰 요동을 치게됨. 작년에는 5,500가구의 소규모 샘플로 진행하다가, 올해 가계동향조사 정상화로 8,000가구로 확장한 것. 


이에 따라 1/3만 신규 가구여야 정상인 조사가 올해는 작년 대비 57%의 가구가 신규 가구로 구성되었음. 게다가 올해는 2010년 센서스가 아닌 2015년 센서스 기준으로 표본 구성을 변동시킴에 따라 노인가구의 비중이 높아짐. 과거와 달리 가계동향조사 샘플의 연속성이 크게 낮아짐. 


게다가 조사방식도 과거에는 기장식, 즉 응답자가 직접 기입하는 방식이 주였는데, 올해 조사에서는 고소득층의 응답률을 높이기 위해 기장식이 아닌 면접식을 대폭 확대했다고 함.  


그 결과 연도별 직접 비교가 가능한지에 대해 세심한 주의가 필요해짐. 


두 연도 간 수치에 큰 변화가 없다면 연도간 비교에 별 문제가 없다고 일반적으로 가정할 수 있지만, 최근에 논란이 되었듯이 소득 분위별로 소득 증가율이 크게 달라졌다면 이 결과가 샘플의 변화로 인한 통계적 우연인지, 실체적 변화를 반영하는지 검증할 필요가 있음. 


그런데 검증을 어떻게 할 수 있겠음? 여기서 가계동향조사의 특성을 이용할 수 있음. 설사 표본에 큰 변화가 있더라도 샘플 교체와 신규 유입이 완전 랜덤이라면 신규 샘플과 연속 샘플의 소득 변화에 별로 다른 점이 없어야 정상임. 연속 샘플만으로 분석해도 전체 표본을 분석했을 때와 질적으로 동일한 결과가 나타나야 한다는 것. 


통계청에서 발표한 가계동향조사 전체 샘플 결과는 전반적인 인구구성변화를 반영하고 샘플 크기를 늘린 것. 전체 샘플은 인구 대표성이 높은 장점이 있고, 연속 샘플을 이용한 패널 기법은 연도별 변화를 추적하기에 더 적합함. 각각이 서로 다른 장점이 있음. 전체 샘플과 연속 샘플의 결과가 유사해서, 가계동향조사를 횡단면적으로도 종단면적으로도 분석할 수 있어야 정상임.  


그런데 고려대 이우진 교수가 검증해 보니, 1분위의 소득 감소는 신규 샘플에서만 나타나고, 연속 샘플에서는 그런 경향이 안나타났다고 함. 이우진 교수의 분석에 따르면 연속 샘플에서는 "1분위(저소득층) 소득은 2016~2017년 감소했다가 올해 17% 증가했다. 5분위(고소득층)의 경우 2016~2017년에는 소득이 15% 늘었다가 2017~2018년에는 2% 줄었다." 


연속 샘플에서는 저소득층 소득이 17% 늘었다니 전체 샘플을 이용한 통계청의 발표와는 달라도 너무 다른 결과임. 통계청 발표에 근거해 소득주도성장 때문에 저소득층의 소득이 오히려 줄었다고 공격하는 보수의 논리와는 완전히 다른 결과가 연속 샘플에서는 나온다는 것. 이 결과에 바탕해 소득주도성장으로 저소득층의 소득이 사실은 크게 늘었다고 말할 수도 있음. 


두 연도를 비교할 때, 횡단면 조사 두 개를 비교하는 것보다, 동일 샘플의 연도별 변화를 비교하는 패널 기법이 overtime 변화에 대한 기법으로 신뢰도가 더 높다는 것은 논란의 여지가 없이 명확한 것임. 


그런데 논란이 된 올해 가계동향조사는 전체 샘플을 이용한 횡단면 비교와, 패널로 유지된 샘플로 한정한 종단면 비교의 결과가 완전히 반대로 나온 것. 이렇게 되면 결과를 신뢰할 수 없게됨. 시쳇말로 나가리 판이 되는 것임. 


도대체 왜 두 결과가 반대인 것임? 


여기서 참고로 가계동향조사의 연속 샘플과 탈락 샘플은 일반적인 패널조사의 attrition과는 다름. 일반적인 패널조사는 샘플의 지속성 유지가 목표지만, 가계동향조사는 3년마다 샘플을 체계적으로 바꾸도록 설계되어 있음. 탈락 샘플과 연속 샘플 간에 차이가 원래는 거의 없어야 정상임. 즉, 연속 샘플은 소득이 증가한 가구만 남고 탈락 샘플은 소득이 감소한 가구로 이뤄져서, 연속샘플로 조사하면 저소득층의 소득 증가가 과대 계상되는 그런 상황이 아님. 이우진 교수의 방법론이 어떤 체계적인 bias를 가질 가능성이 없어야 정상임.   


통계청 담당 과장은 조사 대상의 중복률이 아니라 표본의 대표성이 더 중요하다며 대통령 지지율 조사를 예로 들었다는데, 위에서 자세하게 얘기한 연속 샘플과 신규 샘플의 격차를 전혀 설명하지 못하는 말도 안되는 변명임. 유경준 전임 청장도 표본의 대표성만 얘기하지, 연속 샘플과 신규 샘플의 격차에 대해서는 전혀 말하지 않았음. 


통계청 담당 과장의 변명은 예전에 (2012년인가? 기억이 가물) 가계금융복지조사와 가계동향조사의 불평등 정도가 크게 다르게 나타났는데, 당시 담당 과장이 그래도 가계동향조사가 더 신뢰할만한 국가 공식 지표라고 아무런 설명도 없이 박박 우기는 답변을 내놓았던 것과 비슷하다는 생각임. 지금의 통계청 공식 입장은 조만간 소득불평등 근거 자료를 가계동향조사가 아닌 가계금융복지조사로 바꾸는 것임. 가계동향조사에 문제가 없다던 당시 담당과장의 입장에서 180도 선회한 것. 


그래서 저소득층의 소득이 줄었다는 것임 늘었다는 것임? 어느 결과가 맞는 것임? 


세가지 가능성이 존재함. 첫번째는 2018년 추가 샘플에 문제가 있었을 가능성; 두번째는 연속 샘플에 바이어스가 있을 가능성; 세번째는 2018년 자료에서 연속샘플 추가샘플 둘 다 문제가 없는데 2017년 자료에 문제가 있었을 가능성. 즉 마지막 가능성은 2017-2018년 사이에 저소득층의 소득이 증가했는데, 2017년 자료가 저소득층의 소득을 제대로 측정하지 못해서 이런 사단이 벌어졌다는 것. 2017년 조사는 2010년 센서스 기반이라 노인가구가 적었고, 저소득층이 더 많이 샘플에 포함되어 있었어야 하는데, 무슨 이유에선가 2017년 샘플에서 저소득층이 체계적으로 누락되었다는 것. 2017년에 엉망이던 샘플을 2018년에 제대로 바로 잡으니 문제가 생겼을 가능성. 


즉 세번째 가능성은 가계동향조사는 어차피 없어질 조사라고 생각해서 2017년 조사가 정교하지 않게 이루어졌을 가능성임. 이게 다 사람이 하는 일이라 항상 휴먼 에러가 있음. 2018년에 없어질 가계동향조사를 2017년에 뭐 때문에 그렇게 열심히 하겠음. 대충하고 말지. 


통계청 휴먼 에러의 한 사례로 예전에 센서스 직업코드를 교체하면서 두 센서스간 연속 비교가 가능한 crosswalk 표를 제대로 안만들어서 생난리가 났던 적도 있음.  


어쨌든 저소득층의 소득이 작년 대비 올해 늘었는지 줄었는지, 샘플에 따라 차이가 나는 이유가 위에 언급한 셋 중 어느게 맞는지는 현재까지의 분석 결과로써는 알 수 없다가 정답임. 


무엇이 되었듯 그래서 내릴 수 있는 결론은 가계동향조사 소득분위별 2016~2018년 변화 비교를 신뢰할 수 없다는 것. 저는 이 정도는 이념에 관계없이 합의할 수 있는 영역이라고 생각함.  






다음 주제로 넘어가기 전에 덧붙이는 말. 그럼 이렇게 신뢰하기 어려운 가계동향조사를 생산한 통계청은 크게 잘못한 것인가? 


그런거 아님. 통계는 항상 표본오차와 측정오차를 가지고 있음. 어쩌다가 결과가 튀기도 하고 그런 것. 이 번 가계동향조사처럼 우여곡절을 겪으면 통계 원자료의 안정성이 낮아지는게 일반적임. 위에서 말했지만 2017년 조사가 이상하고, 2018년 조사가 제대로 된 것일 가능성도 배제할 수 없음. 2018년에 조사 제대로 한 통계청 사람들이 무슨 죄임? 통계를 분석하고 이용할 때는 이러한 문제점들을 인식하고 여러 가능성에 대한 열린 태도를 가져야 함. 


그런데 한국에서는 통계 결과를 무슨 불변의 진리인양 간주하고 생난리를 피우는 경향이 있음. 교수들이 통계청 결과를 공격할 때도 에러의 가능성, 여러가지 통계가 일치하지 않지만 그래도 자료로써의 가치가 있는 정도를 보지 않으려고 함. 


아래 최근 논란을 둘러싼 통계청의 태도를 비판하겠지만, 한 편으로는 통계청의 태도가 이해되는 측면도 있다는 점을 미리 말해 둠.






위에 얘기한 가계동향조사의 문제점에 대해서는 통계에 대한 지식이 있는 사람들이라면 그래도 쉽게 합의할 수 있겠지만, 통계청의 대응 태도가 문제가 있었는지에 대해서는 좀 더 의견이 갈릴 것. 그래도 이 논란 와중에 통계청의 대응과 태도는 어떤 문제점이 있는지 한 번 따져보겠음. 


우선 위에서 언급한 연속 샘플과 교체 샘플의 큰 격차가 국가적 논란이 생긴 후 통계청이 아닌 학자들에 의해서 이의가 제기되었다는 것 자체가 통계청의 문제점을 드러냄. 


내부 사정을 자세히 알 수 없지만 가계동향조사 표본을 설계하고 원자료를 가장 먼저 분석한 통계청이 문제점을 충분히 인식했을 가능성이 상당함. 그럼에도 불구하고 문제에 대한 자세한 설명없이 오랫동안 깔아뭉개고 있었다는 비난을 면할 길이 없음. 국가적 논란에도 불구하고 주무 부처인 통계청의 대응이 안일했음. 


안일하기만 했으면 그 나마 다행인데, 예전에 청와대에서 가계동향조사를 개인소득으로 바꿔서 노동자 가구의 소득은 늘었다고 대통령이 직접 얘기할 때 통계청에서 그런 통계는 없다는 식으로 대놓고 딴지를 놓기도 했음. 


통계청에서 원자료를 가공하여 새로운 함의를 도출하는 방식에 대해 딴지를 거는 것은 이해하기 어려움. 왜 그런지 밑에 다시 자세히 말하겠음. 


다음으로 언론 보도에 따르면 통계 원자료를 제출하라는 청와대의 요청에 제대로 응하지 않을려고 했다는데, 이 태도도 잘못된 것. 


통계법에 따르면 통계 원자료는 공식 발표 하루 전에 유관 기관에 제출할 수 있지만, 국가 경제 위기나 국가적 혼란이 예상될 때는 그 전에라도 원자료를 제공할 수 있음. 


통계청은 이 법조문을 자료를 제공하지 않는 근거로 삼는데, 저는 오히려 이 법조문을 자료를 제공하는 근거로 삼아야 한다고 봄. 가계동향조사 결과가 경제적 위기와 국가적 논란의 대상이 되기 때문에 유관기관에 공식 발표 이전에 원자료를 제공했다고 하면 깔끔하지 않음? 지금과 같이 통계자료로 경제적 문제가 심각하게 대두될 때 통계청에서 유관기관에 자료 제공을 한정하면 어쩌자는 것임? 


통계법을 자료 제공을 막기 위한 방패막이로 사용하는 태도가 잘못되었다고 봄. 통계법은 통계의 원활한 작성과 이용을 위한 것이지, 통계청의 콧대를 높이라는 법이 아님. 


통계법으로 통계 이용을 제한하는 해석이 왜 잘못인지, 통계법 적용의 예를 하나 들어 보겠음. 통계법에 따르면 인구총조사 (즉 센서스)에 정당한 이유없이 응하지 않을 경우 과태료 100만원에 처할 수 있게끔 되어 있음. 한국만 그런게 아니라 미국도 비슷하게 처벌함. 하지만 유사 이래 이 법으로 과태료를 물은 사람은 내가 알기로 단 한 명도 없음. 처벌을 목적으로 한 법이 아니라, 국민은 통계 작성에 협조해야 한다는 의무에 대한 선언적 의미가 있는 것. 센서스에 제 때 응하지 않는다고 통계법대로 과태료 100만원씩 때리면 볼만할 것임. 


이처럼 통계법은 통계의 원활한 작성과 활용의 편의를 위한 것이지, 자료 이용의 제한을 위한 규제가 되어서는 안됨. 





그럼 통계 원자료를 제공하는게 왜 중요한가. 


통계청은 통계 생산에 최고의 전문성을 가진 기관임. 통계 분석이 아님. 장담하는데 통계 분석 능력은 통계청 직원들보다 대학 교수들이나 연구원들이 앞섬. 


일반적으로 착각하는 것 중의 하나가 (a) 통계 원자료 생산과 (b) 생산된 원자료 분석 능력이 같은 건줄 아는 것. 양자는 매우 다름. 대학 교수나 연구원들은 전자의 능력이 별로 없고, 통계청 직원들은 후자에 특화되어 있지 않음. 통계청의 원자료 분석은 대부분 기술 통계임. 


여담으로 대학 교수 중에 통계 원자료 생산을 제대로 하는 분은 아마 KGSS를 생산하는 성균관대 김지범 교수일 것. 미국 시카고대 NORC에서 미국 GSS 자료 생산하다가 한국에 오신 분. 샘플링 기법을 제대로 적용해서 조사함. 그래서 KGSS가 매우 비싼 자료인데, 그 가치가 뭔지 대부분 모름. 여론조사 회사들도 분석 능력보다는 생산 능력에 전문성이 있는 기관임. 


반면 통계청은 복잡한 통계 모형을 이용한 자료 분석이 아니라, 복잡한 샘플링 기법을 이용한 자료 생산에 특화되어 있음. 이 때문에 자료 분석 훈련을 주로 받은 박사나 연구원들이 통계청에 취직하면 별로 기를 피지 못함. 통계청에서 박사들을 제대로 활용 못하는 이유는 이 조직이 잘못되어서가 아니라 통계청에서 필요로 하는 지식과 박사들의 지식이 불일치하기 때문임. 박사들이 통계청에 특화된 전문성을 확보할 때 까지 시간이 걸림.  


여기서 또 한가지 착각하지 말아야 하는 것은 기술통계가 중요하지 않다는 식의 태도임. 국가통계는 다변량 분석을 하는 것이 아니고 기술 통계로 기초적이고 연속적인 자료를 제공하는 것이 목적임. 이런 목적에 맞는 활동을 통계청이 수행함. 


그런데 이런 기술 통계를 넘어선 분석이나, 또는 기술통계라도 인구에 따른 교차 분석의 필요성이 있을 때는 원자료가 반드시 필요함. 기술통계는 샘플에 대한 가정 외에 많은 "추정"이 들어가지 않지만, 어떤 정책적 판단을 위해서는 기술통계를 넘어선 복잡한 다변량 분석으로 정책 효과 등을 추정할 필요가 있음. 


그런데 통계청이 정책 생산 분석 기관에 자료 제공을 꺼려하면 어쩌라는 것임? 


통계청이 원자료 제공을 꺼려하는 이유는 겉으로는 프라이버시 보호지만, 실제로는 자신들의 오류가 드러나거나, 통계를 둘러싼 논란의 대상이 되는 것을 피하려는 조직 보호, 조직 이기주의 논리일 개연성이 매우 높음. 


이 번에 이우진 교수와 다른 팀에서 분석한 대체 샘플과 유지 샘플의 격차도 통계 원자료가 없으면 불가능한 것임. MDIS의 일반 공개용 원자료에는 대체 샘플과 유지 샘플에 대한 변수가 없음. 어느 샘플이 대체된 것이고 어느 샘플이 연속된 것인지 알 길이 없음. 이우진 교수와 같은 분석은 샘플링에 대한 정보를 포함한 원자료가 없으면 아예 분석이 불가능함. 아마 심상정 의원이 통계청 원자료를 구해서 이우진 교수팀에게 제공했을 것. 그 때문에 가계동향조사의 문제도 제대로 밝혀진 것. 


그런데 통계청이 청와대에서 통계 분석에 특화된 연구원들에게 자료 분석을 시키기 위해서 통계청에 원자료를 요청한다고 통계 조작이고 간섭이라고 불만을 터뜨린다는게 말이 됨?





그럼 다른 나라에서는 어떻게 하나? 나라마다 다르지만 한국이 맨날 떠드는 천조국의 예를 들어 보겠음. 


가계동향조사와 가장 유사한 미국의 CPS는 대체 샘플과 유지 샘플에 대한 전체 정보를 공개함. CPS를 패널 자료로 만들 수 있는데 그 과정이 좀 복잡함. 그래서 미국 센서스국에서 원자료 전체를 미네스타 대학 인구센타에 제공해서, 미네소타 인구 센타에서 친절하게 CPS를 패널자료로 전환한 자료를 무료로 전세계 모든 사람들에게 제공함. 등록만 하면 데이타를 다운 받을 수 있음. 


한국 통계청은 청와대에서 자료를 달라고 해도 정권이 통계 조작할려고 한다고 노조가 성명서를 발표하는데, 미국은 전세계 모든 인민들에게 자신들의 자료를 공개하고 있음. 미네소타 대학의 자료는 추가 linking 작업과 harmonization 때문에 시기적으로 늦게 자료가 제공되기라도 하지만, NBER에 가면 아무런 가공이 없는 원자료가 1~2달 갭을 가지고 올라옴. 모든 학자가 능력만 되면 이 원자료를 분석할 수 있음. 


황수경 전청장 시기에 자료 제공을 특히 빡빡하게 했다고, 통계청의 독립을 지켰다고 기사에 나왔던데, 제가 보기에 이게 자랑거리가 아님. 오히려 욕먹을 일이지. 


정권이 통계를 조작하는 것은 결코 해서는 안되는 일이지만, 정권이 통계 원자료로 어떤 일이 벌어지는지 분석하는 것은 매우 권장해야 할 일임. "증거기반정책" 생산은 통계 분석없이 불가능함. 후자를 했다고 전자를 의심하고 공격하는 건 말이 안됨. 






마지막으로 평소 소신 반복함. 복지 국가는 통계 국가임. 통계 입국이 복지 입국의 길임. 복지를 제공할려면 통계가 필요하고, 세금을 부과할려면 통계가 필요함. 프라이버시를 강조하며 통계 원자료 활용을 막는 것은 복지의 발전을 막는 우회적 방법임. 그래서 앞으로 통계를 둘러싼 진보와 보수의 대립은 계속될 것으로 예상함. 진보는 데이타를 더 공개하자는 쪽으로, 보수는 프라이버시를 기치로 더 막자는 쪽으로. 


자료공개와 이용 얘기하면 빅브라더 떠올리며 프라이버시 강조하는게 진보인줄 아는 분들 있는데 그거 아님. 


본인이 진보적이면서 동시에 객관적이고 싶으면 통계 공부 열심히 할 것. 심지어 미국에 이런 웹사이트도 있음: 진보 통계돌이를 위한 직업 알선 사이트

Posted by 바이커 sovidence