경향기획기사: 다시 쓰는 인구론 2탄: 다 인구 때문일까? 


경향의 기획 기사인데, 매우 잘 썼음. 지금까지 나온 시리즈는 요기서 확인할 수 있고, 앞으로도 계속 나올거라고 함. 


이 번 기사의 핵심은 현재 추정하는 저출산의 사회적 비용이 과대 계상되었을 수 있다는 것. 저출산의 증거인 합계 출산율도 인구학계에서 여러 논의가 있고, 고령화로 인한 부양비 부담도 지금 계산하는 것보다 훨씬 적을 수 있다는 것. 일독을 권함. 




연관되었지만 조금 다른 얘기를 하자면, 기사 중간에 보면 이런 말이 나옴. 


맬서스 이후 모든 인구 관련 가설이나 추계는 빗나갔다. 맬서스는 인간이 적응의 동물임을 간과했다.


실제로 맬서스 이후 대부분의 인구 관련 가설이나 추계는 빗나갔음. 그래서 인구 변수에만 의존해서 미래를 예측하는 것은 매우 위험함. 


국민연금이나 복지비용에 대한 논의를 하면 인구가 줄어들 것으로 예상되기 때문에 복지를 늘리면 재정이 망한다는 식의 주장이 반드시 뒤따르는데, 20~30년을 넘어가는 장기 추계는 참고 자료 중 하나일 뿐 큰 의미가 없다고 생각함. 장기 인구 추계를 근거로 재정 건전성을 염려해서 현재의 복지 확대를 막는 논의는 인구학의 과학적 논의에 기반했다기 보다는 이데올로기의 발로라고 생각함.  


그런데 인구학을 이용한 이러한 이데올로기적 편향의 발현은 사실 맬서스 부터 시작한 것임. 


경향 기사에서 맬서스가 틀린 이유가, 그가 인간이 적응의 동물임을 간과했다는데, 맬서스가 간과한 것은 인간의 적응력만이 아님. 


맬서스가 "인구는 기하급수적으로 식량은 산술급수적으로 증가"한다고 주장한 배경에는 사실 매우 좋지못한 의도가 있었음. 영국에서 빈곤법이라는 복지 정책이 있었는데, 이 정책의 후퇴로 많은 빈민들이 아사하였음. 맬서스의 "철의 법칙"이라고 부른 인구론에는 빈민들의 아사가 어쩔 수 없는 법칙이라는 함의가 있었음. 복지의 축소 때문이 아니라 인구법칙 때문에 빈민의 아사는 불가피하다는 것. 


정책적으로 맬서스는 공공 복지의 축소와 빈민 구제는 사적 기부를 통해서 할 것을 주장하였음. 인구가 급격히 늘것이기에 복지는 밑빠진 독에 물붙기가 될 것이기 때문. 


한국에서 인구가 줄고 부양비가 증가할 것이기에 복지를 늘려서는 안된다는 논리와 거의 같은 주장이었음. 


그래서 맬서스의 인구론은 왜 틀린 것으로 판명되었나. 많은 사람들이 인구가 기하급수적으로 늘어나지 않은 것에 촛점을 맞추는데, 맬서스가 가장 틀린 것은 인구가 아니라 "식량"이었음. 


산업혁명의 진척과 기술의 발전으로 증가하는 인구를 먹이고 살리고도 남을 음식과 기타 재화가 생산된 것. 맬서스는 인간이 적응의 동물임을 간과해 인구 숫자에 대한 예측이 틀렸을 뿐만 아니라, 당시에 생겨난 자본주의가 어떤 사회적 변화를 가져올지 간과해 경제성장에 대한 예측이 틀렸음. 


맬서스의 예측은 이러한 이중오류로 인하여 현실에서 빗어난 것. 


이러한 논의를 안다면 현재 누가 가장 이상한 소리를 하는지 알 수 있음. 출산율 저하로 인한 생산인구 감소로 망한다는 종말론과 4차혁명으로 인한 노동수요 감소로 망한다는 종말론은 공존할 수 없는 주장임. 이 두가지를 합치면, "인구는 산술급수적으로 감소하는데 생산력은 기하급수적으로 증가"해서 빈곤이 증가한다는 황당한 주장이 됨. 4차혁명으로 생산성이 증가하면 노동력이 감소해도 생활수준이 높아지는데 아무런 문제가 없음. 


한국에서 인구론에 근거해 암울한 미래를 예측하는 분들이 결국 옳을지, 맬서스와 같은 이중오류를 범하는 것인지, 한가지는 맞을지 현재로써는 알 수가 없음. 


현재 할 수 있는 최선의 선택은 최대 중기 정도의 미래를 예측하고 정책적 선택을 하는 것. 맬서스의 오류에서 배워야 할 점은 아마도 장기적 미래를 두려워해 중단기적 복리를 포기하는 선택이 어리석다는 것. 미래는 그렇게 쉽게 예측할 수 있는게 아님. 





Ps. 맬서스가 옳았던 기간이 있었으니 그것은 바로 산업혁명 이전의 인구와 식량의 관계. 이 기간을 Malthusian Trap이라고 함. 

Posted by 바이커 sovidence

경향신문 기사: 이자비용 증가율 30% 넘어 역대 최고



경향신문 기사를 보면 가계 이자비용 부담률이 2018년에 갑자기 급증함. 그 때 이자율이 크게 오른 것도 아니고, 가계부채가 급등한 것도 아님. 작년 말에 기준 금리를 0.25%포인트 인상한 것이 가장 큰 변화. 이 정도 변화에 이자 부담이 급등한다는게 말이 됨? 


한참 논란이 되었던 가계동향조사 결과가 추가 논의도 없이 여러 기사에 보도되고 있음. 위 경향 신문 기사도 그렇고, 얼마 전에 보도된 고소득층은 소득이 늘고 저소득층은 크게 줄었다는 보도도 그렇고. 


2018년 가계동향조사 결과를 이용해 2017년과 비교하는 모든 결과는 이 전에 논의(요기요기요기요기 등)했던 문제점을 그대로 가지고 있음. 


저는 가계동향조사를 이용한 2017-18년 비교 결과는 거의 안믿음. 심각한 문제를 가지고 있고, 그 난리를 쳤는데도 불구하고 지금은 아무 문제가 없다는 듯이 기사화되는게 신기할 뿐. 





2018년에 60% 정도의 샘플을 추가했는데 이 신규 추가 샘플이 연속 샘플과는 상당히 다른 특징을 가지고 있음. 신규 샘플과 연속 샘플과의 불일치가 2018년 만의 특징인지, 이 전 해에도 그런 경향이 지속되었는지는 알기 어려운데, 적어도 2017-2018년에 추가된 신규 샘플이 2016-2017년 사이에 추가된 신규 샘플과는 크게 다르다는 것은 확실함. 


그 이유는 2018년부터 2015년 센서스를 기준으로 샘플링을 추가하는데, 2015년 센서스는 그 전 센서스와 조사 방법이 다름. 등록센서스로 전수 조사를 한 최초의 센서스가 2015년 센서스임. 이 전과 조사 방법이 다르기 때문에 2015년 센서스는 과거에는 파악되는 인구가 누락되고, 과거에는 파악되지 않던 인구가 추가되었을 가능성을 배제할 수 없음. 


2015년 센서스가 과거와는 다른 어떤 체계적인 차이가 있는지 검증해야 하는데, 아무도 안함. 왜냐하면 통계청과 정치인등을 통한 다른 경로로 자료를 구한 극소수 연구자 외에는 아무도 데이타가 없으니까. 





그럼 2015년 등록 센서스에 기반한 조사는 기반한 조사는 과거 조사와 어떻게 다른가? 센서스 전체 자료를 공개하지 않기 때문에 정확히 파악할 수는 없지만 짐작할 수 있는 결과가 하나 있음. 


한겨레에서 "집 아닌 집에 사는 사람들"이라는 훌륭한 기획 기사를 내보냈는데, 그 중 마지막 편에 보면 아래와 같은 그래프가 있음. 


그 중 가운데 있는 그래프가 센서스를 이용한 결과인데, 2005년에서 2015년 10년 사이에 비주택 거주자가 6만명 미만에서 40만명으로 6.5배 증가함. 그 이유는 "기타"로 분류된 주거지 거주자가 14배 증가했기 때문. 


이게 말이 되는 것임? 이렇게 심대한 변화는 실제 변화를 반영하기 보다는 조사 방법을 바꾸었기 때문에 그 전에 파악이 안되던 비주택 거주 빈곤층이 센서스에 파악되기 시작했기 때문일 가능성이 큼. 


전해 들은 얘기로 2015년 센서스가 이 전 센서스와 다른 가장 큰 특징이 주거형태라고 함. 






그럼 2018년 가계동향조사에서 2017년과 비교해 갑자기 이자부담이 증가한 이유는 무엇인가? 


가계동향조사 항목을 자세히 따지면 이자부담은 거의 전적으로 주택대출임. 짐작컨대 2018년 신규 샘플에 상대적으로 소득이 낮은 계층이 많이 포함되었고 이들 계층의 주택 담보 대출 비율이 높기 때문일 가능성이 있음. 


그렇다고 이자 부담이 증가하지 않았다는 것은 아님. 2018년 샘플에서 전반적으로 이주 부담이 우상향하는 것으로 미루어 이자 부담은 다소 증가했을 가능성이 큼. 하지만 그 정도가 30%에 이를 가능성이 매우 희박함. 


이자 부담 증가가 연속 샘플에서도 관찰되는지, 신규 샘플에서만 나타난 현상인지 확인할 필요가 있지만.... 뭐 통계청 외에는 데이타가 없으니... 

Posted by 바이커 sovidence

조선비즈 기자수첩: 9월 고용지표에 '일희일비' 한 경제부총리


김동연 부총리가 9월 고용지표가 생각보다 나쁘지 않을 것 같다는 언급을 했다고 비판하는 기사인데, 경제가 생각보다 안나쁠 것 같아서 조선이 짜증났나? 


아래는 조선비즈 칼럼의 일부: 


... 통계법 27조는 통계청 등 정부 부처가 공표를 앞둔 국가통계를 미리 누설하는 것을 엄격하게 금지하고 있다. 관련 부처가 해당 통계를 요청하더라도, 공표일 하루 전 낮 12시 이전에는 제공할 수 없다. ... 법에 따르면 11일 낮 12시 이전에는 기획재정부가 9월 고용동향에 대한 정보를 가지고 있을 수 없다. ...


이는 사실이 아님. 왜냐하면 예외 조항이 있으니까. 정확히 통계법에는 타기관 자료 제공에 대해 아래와 같이 쓰여 있음. 


④ 통계작성기관은 제2항 제2호 나목에 따라 작성된 통계를 제공하는 경우 공표 예정일 전날 낮 12시 이후에 제공하여야 한다. 다만, 국제기구의 요청을 받아 통계를 제출하는 등 국제협력을 위하여 필요하거나 경제위기, 시장불안 등으로 관계 기관의 대응이 시급하다고 인정하는 경우 등 대통령령으로 정하는 경우는 그러하지 아니하다.


실제로 대통령령 28521호에 보면 "경제위기 또는 시장불안 등으로 관계 기관의 대응이 시급한 경우"에는 사전제공의 예외 사항으로 규정하고 있음. 


지금 경제위기, 시장불안 등의 요인이 있는거 아님? 조선에서 경제위기, 시장불안 그렇게 떠들어놓고 이제와서 경제위기 아니라는 거임? 


지금 같은 상황에서 통계청이 데이타를 경제부처에 미리 제공하지 않는게 문제지, 제공이 문제가 될 수 없음. 지난 번 통계청장이 데이타를 미리 제공하지 않아서 통계청의 독립을 지켰다는데, 그거 아님. 


시장 불안이 큰 상황에서 통계청이 데이타를 미리 제공하지 않으면, 경제 관련 정부 기관의 대응력을 떨어뜨려 시장불안을 가중시키는 문제를 야기함. 데이타 미제공이 결코 자랑이 아님. 오히려 데이타 미제공을 문제 삼아야. 


최대한 사시를 뜨고 봐도 김동연 부총리가 통계를 누설했다는건데, 이것도 "관계 기관의 대응"의 일환으로 볼 수 있는거 아님? 


전날 12시 제공의 예외를 규정하는 대통령령의 타이틀이 "작성된 통계에 대한 사전 제공의 예외 및 공개 등"임. 사전 제공 뿐만 아니라 공개 등에서도 경제위기와 시장불안으로 관계기관의 대응이 필요하면 예외가 될 수 있음. 





조선비즈 칼럼에서는 김동연 부총리가 기대하고 희망한대로 9월 고용이 나쁘지 않으면 문제라고 하던데, 오히려 그 반대임. 김동연 부총리의 발언과 반대의 결과가 나오면 황당한 것. 김 부총리는 정확한 통계도 없이 시장 혼란을 야기한 것이 됨. 


문대통령도 좋은 일자리는 늘어났다고 어제인가 발언했는데, 대통령과 부총리가 데이터도 없이 시장에 잘못된 신호를 주면 이거는 심각한 문제. 이 때는 욕을 바가지로 먹어도 문재인 정부는 할 말 없음. 

Posted by 바이커 sovidence

한겨레 기사: 가사노동이 GDP 24%…여성 연 1077만원, 남성의 3배 일한다

경향신문: 주52시간 도입, 가사일 시작한 4050 남자들 늘었다


현재 한국 남성의 가사 노동 시간은 주 6시간 정도. 여성의 가사 노동 시간은 주 25시간 정도. 약 4배 격차. 통계청의 조사에 따르면 하루 노동 시간 격차는 161분. 


그런데 선진국은 남녀의 가사 노동 격차가 2배를 넘지 않음. 하루 노동 시간 격차로 따지면 대부분의 국가가 100분 이내. (아래 그래프는 하루 가사 노동 시간의 성별 격차. 소스는 요기.) 


모든 국가에서 여성의 가사 노동 시간이 남성보다 더 길지만 하루 격차는 90분 이내. 한국처럼 2시간 30분이 넘는 국가는 없음. 현재 한국의 성별 가사 노동 시간 격차는 선진국에서는 쌍팔년도 아니고, 잘해야 1950-60년대에나 겪던 일임. 





이것도 한국의 최근 통계가 가사 노동을 뭔가 좁게 정의했거나, 대상 연령을 한정했기 때문에 예상보다 격차가 적게 나온 것으로 보임. 한국에서 생활시간조사는 2014년에 실시되었는데 이 때 유배우 남녀의 가사 노동 시간은 남자가 50분, 여자가 259분으로 성별 격차가 209분 이었음. 한겨레 신문이 보도한 하루 노동시간 격차 161분은, 2014년의 조사와는 다른 대상으로 계산했을 것. 


어쨌든 앞으로 남성의 가사 노동 시간은 지속적으로 증가하여 지금보다 최소 2배, 현실적으로 3배쯤 늘어날 것. 대부분 예상하듯 여성은 가사 노동 시간이 줄어들고 일자리 노동 시간이 늘어나는 반면, 남성은 일자리 노동 시간이 줄고 가사 노동 시간이 늘어날 것. 


저녁이 있는 삶이란 일찍 퇴근해서 친구들과 어울리는 삶이 아니라, 부부 모두가 일찍 퇴근해서 가사 노동을 같이하는 삶이 될 것. 


이 경향은 너무 명확관화한 것이라, 여기에 저항하는 당랑거철이 되지 않도록 주의해야.  



Posted by 바이커 sovidence

얼마 전 심상정 의원이 국세청에서 받은 소득 천분위 자료를 블로그에 공개해 화제가 된 적이 있음. 한국에서 국세청의 aggregate 자료가 간혹 공개되는데 aggregate 된 원자료가 공개되든, aggregate 된 것을 재가공한 자료만 공개되든 대부분 국회의원을 통해서 공개됨. 


한국에서 국세청 세금 자료는 궁극의 비밀의 영역. 


그럼 다른 나라는 얼마나 공개하나? 


우선 미국부터. 


1960년대부터 미국은 국세청 자료 중 일부를 랜덤 추출해서 개인 식별자를 제거하고, 세금 단위를 rounding 한 후 상세한 세금 자료를 연구용으로 공개함. 자료는 통계 분석을 하기에 아무런 무리가 없게 큼. 2012년 기준으로 약 17만명의 상세한 세금 정보가 이 원자료에 포함되어 있음. 우리나라로 치면 17만명의 연말정산 원자료임.  


아무에게나 주는 것은 아니고 신청하고 비밀보장을 서약한 후 자료를 제공. 이 자료를 어떻게 통계 프로그램에서 분석 가능한 자료로 바꿀지는 NBER 웹사이트에 프로그램이 올라와 있음. NBER에 속한 학자들은 이 곳 unix system에 접속해서 세금 자료를 분석할 수 있음. 


국회의원을 통해서 재가공된 천분위 자료를 받고 말고 할게 없음. 


이 자료는 개인식별자가 없고, 아무런 인구학적 정보가 없기에 분석에 한계가 있음. 하지만 미국 국세청과 미국 통계청(Census Bureau)이 협력해서 SIPP 서베이 자료나 CPS 서베이 자료에 국세청 정보를 링크시켜둔 자료가 있음. 


역시 아무에게나 주는 것은 아님. 이 자료들의 접근은 보안이 훨씬 철저해서 연구자가 계획서를 내고, 오랫동안 심사해서 허가를 받아야만, 보안 장치가 있는 장소(ie, RDC)에서 쓸 수 있음. 


한국 통계청에서 그렇게 자랑하는 MDIS는 바로 이런 정보를 볼 수 있게 해주는 시설이 되어야 하는데, 한국은 이런 자료는 아예 공개를 안하고, 기껏해야 다른 나라에서는 인터넷에서 다운 받을 수 있는 수준의 연속샘플 식별자 같은 것을 볼 수 있는 장소로 사용. 


요즘 미국 통계청과 국세청은 SIPP이나 CPS의 샘플 사이즈가 작다고, 미니 센서스인 ACS에 세금 데이타를 붙이고 있음. 올 연말이나 내년 초 정도면 링크 작업이 끝날거라는 소문이 있음. 


위 세금 자료는 개인식별자를 모두 없앤 것이지만, 누가 연봉 얼마받는지 알 수 있는 자료도 있음. 바로 세금으로 월급받는 공무원들임. 요기에 가면 연방정부 공무원 개개인들의 연봉이 모두 올라와 있음. 관심있는 연방정부 공무원의 이름을 치면 연봉을 얼마받았는지 알 수 있음. 


많은 주정부들도 주정부 공무원들의 연봉을 공개함. 






유럽 국가들의 세금 정보 공개는 한국은 물론 미국보다 더 자세함. 


노르웨이는 전국민의 세금 보고를 인터넷에 공개함. 스웨덴도 전화 한통화면 개인의 세금 정산 보고서를 알 수 있음. 


스웨덴의 경우 전국민의 노동시장과 복지 행정자료 정보를 통합한 "노동시장 장기통합 데이터 (LISA)" 시스템을 갖추고 있음. 원자료 온라인 접근 시스템 (Microdata Online Acess: MONA)를 도입해서 연구자들이 인터넷으로 접속해서 등록행정데이타 정보를 분석할 수 있음. 


이 시스템에서는 이번 가계동향조사 논란처럼 데이타를 패널로 분석할 수 있느니 없느니는 논란조차 될 수가 없음. 모든 국민의 횡단면, 종단면 분석이 가능하니까. 16세 이상 전국민의 고용, 소득, 직업, 경제활동, 질병, 사회부조, 연금, 출생, 거주지, 거주지, 학력, 고용이 되었을 경우 일하는 기업의 정보까지 모두 통합되어 패널 분석이 가능함. 덴마크도 비슷한 시스템을 갖추고 있음.  


이처럼 복지국가는 전국민의 삶을 국가에서 추적하고 분석하고 어느 시점에 어떤 도움이 필요한지 연구할 수 있는 국가임. 


스웨덴, 덴마크만 이러는거 아님. 많은 북유럽국가들이 통계청에 행정자료 전체에 대한 접근 권한을 주고 이 자료를 연구에 이용할 수 있게 함.






영국은 ADRN (administrative data liaison service)라는 시스템을 갖추고 2013년부터 연구자들에게 행정자료 접근 서비스를 제공함. 미국 RDC나 한국 MDIS에서처럼 승인을 받아서 secured sites에 가서 이용하는 시스템인데, 한국과 달리 데이타 수준이 매우 높고, 미국과 달리 신청하면 웬만하면 다 승인해줌. 여러 문제점도 노정했지만, 행정자료를 이용한 연구에 획기적 전환점이 되었음. 





그런데 한국은 통계청에 타부서 행정자료에 대한 접근 권한은 통계법으로 거의 부여했는데, 이 데이타를 통계청 내부에서만 볼 수 있게끔 되어 있음. 믿거나 말거나 상당한 수준의 행정자료가 지금 통계청에 쌓이고 있음. 


통계청 자체 자료도 외부 공개를 꺼리니, 다른 부서에서 받은 행정자료는 말할 필요도 없음. 통계청에만 정보가 쌓이고, 이렇게 쌓인 정보가 공공을 위한 연구로는 활용이 안되는 그런 상태임. 정책 분석을 위한 자료로 활용할거 아니면 통계청에 전국민 데이타를 집중시켜서 뭐에 씀?  

Posted by 바이커 sovidence

2017년 대비 2018년 가계동향조사의 시계열 비교 적절성과 관련해서 서로 간에 아마 더 할 말도 없을 것으로 생각함. 비표집오차에 대해서 몇 가지 생각이 있지만, 가설 수준이고 별 관심도 없을 것. 관련 변수를 모두 포괄하는 원자료가 공개되지 않는 이상 논의가 겉돌 것으로 생각함.  


일부에서는 현 정부를 옹호하기 위해서 원자료 공개를 얘기한다고 생각하겠지만 (뭐 그렇게 생각하는게 이상한 것도 아님), 원자료 공개에 대한 제 생각과 활동은 좀 오래되었음. 통계청장 교체와 가계동향조사 신뢰성 논란이 일어난 김에 제가 원래 관심 있었던 주제를 쎄게 이슈파이팅한 것.   


아는 분은 다들 아시겠지만 지난 5년 동안 한국에 가거나 사회학자들을 만나기만 하면 했던 얘기가 바로 원자료 공개에 대한 것. 2015년에는 한국사회학대회에서 당시 회장님께 부탁해서 사회학의 데이타 문제에 대한 세션을 열고, 자료 이용에 대한 외국의 트렌드와 한국 사회에서 필요한 조치에 대해 제 의견을 발표한 적도 있음. 2017년에 올렸던 행정자료에 대한 이 포스팅이 그 때 발표의 일부였음. 이 때도 제가 워낙 세게 얘기해서, 당시 청중이었던 한 학자분은 저보고 한국 사회학은 데이타가 없어서 망할 것처럼 주장했다고 함.   


제가 아는 통계청 분들에게도 이 이슈에 대해서 말씀드린 적이 여러번 있음. 통계청에도 몇 번 찾아갔음. MDIS 만들기 전에 미국의 RDC 얘기도 많이 했었음. 


지금의 이슈 파이팅은 올해 갑자기 가계동향조사가 문제가 되어서 급조한 것이 아니라, 짧게는 5년, 좀 길게보면 10년 넘게 관심을 가지고 꾸준히 생각하고 오프라인에서 얘기했던 것임. 한국 사회에 아무 것도 기여하는거 없지만, 남들이 잘안하는 유일한 기여가 있다면 원자료 공개 문제일 것으로 생각했음.  


    




한국 통계청의 원자료 공개에 대한 거부감은 제가 알기로 외부에서 생각하는 것보다 훨씬 더 큼. 특히 정책 판단에 직접적 영향력을 행사하는 과장단, 국장단의 거부감은 꽤 심한 편임. 많은 분들이 김신호 과장님의 발언에 놀랐겠지만, 김신호 과장님의 태도는 전향적인 편으로 느껴짐. 김신호 과장님은 MDIS를 만든 유경준 전청장을 칭찬하지만, MDIS 만들 때 통계청 분들이 유경준 당시 청장을 마냥 칭찬한 것이 아님. 


통계청이 외부에서 온 청장의 지시나, 외부의 압력없이 자발적으로 원자료 공개를 확대할 가능성에 대해서는 솔직히 회의적임.  





한국에서 미국으로 유학오는 분들에게 이러저러한 얘기를 많이 하는데, 그 중 하나가 한국 연구를 main research area로 삼지 말라는 것. 두 가지 이유가 있는데 하나는 한국이든 미국이든 교수직을 구할려면 미국 저널에 논문 출간을 많이 해야 함. 그런데 한국은 연구 사례로 미국 저널에 크게 흥미가 있는 케이스가 아니라 논문 출간이 어려움.


다른 하나는 설사 이론적으로 흥미있는 질문을 해도 한국 데이타가 부실해서 일관성있는 논지를 피거나 믿을만한 통계 결과를 제시하기 어렵기 때문. 한국에 대한 논문을 여러 번 리뷰했는데, 데이타 단계에서 부터 도저히 사회학 유수 저널에 채택하라고 권고할 수가 없음. 


개인적으로는 한국 교육의 노동시장 효과를 연구하는게 있는데, 데이타마다 교육 프리미엄이 증가하는지 감소하는지 경향이 다르게 나옴. 어느게 맞는건지 알 수가 없음. 돌아버리겠음.   


한국에서 SSK로 상당한 비용을 사회과학계에 지원하고 있고, 학자들에게 SSCI 논문 출간하라고 독려하고 있음. 교수들은 SSCI에 논문이 없으면 정년 보장도 못받음. 그런데 통계청의 고퀄러티 원자료의 공개확대 없이 한국 사회과학이 발전하기 어려움. 장담하는데, SSK 예산 늘리는 것보다 통계청 데이타의 공개 수준을 높이면 SSCI에 출간되는 한국 사례 논문이 늘고, 한국 사회과학이 더 크게 발전할 것. 





요즘 사회과학 경쟁의 절반은 데이터 싸움이라고 해도 과언이 아님. 최근 사회과학의 최고 자료는 주로 스칸다나비아 국가에서 나오고 있음. 이 나라들에서 학자들에게 공개하는 데이타의 수준이 어마어마함. 전국민의 모든 데이타를 사회과학자들에게 허용하고 있다고 해도 과언이 아님. 북구학자들은 툭하면 전국민의 소득 증가율을 실제로 봤더니... 하면서 논문이 나옴. 세금데이타를 교육부 자료와 연결시키고, 헬스데이타까지 모두 붙여서 학자들에게 쓰게 하니 가능한 것. 물론 이 수준의 데이타가 일반 공개는 아니고 MDIS 같은 보안을 거쳐야 함. 


올초에 뉴욕에서 행정자료에 대한 소규모지만 학계의 거물들이 많이 참석한 심포지움에 어쩌다 참석한 적이 있음. 여기서 나온 얘기 중 하나가 언제까지 고퀄 데이타가 북구 국가에서 나오는걸 지켜봐야 하냐고, 미국도 그 인프라를 구축해야 한다는 것이었음. 그 심포지움을 주최한 Foundation 대표가 나와서 이 인프라 구축을 위해 연구자금을 넉넉히 지원할 의향이 있다고도 얘기하고. 가계동향조사의 연속표본 ID 공개도 안하는 한국과 대비가 되어도 너무 됨.


 

 


해외에 있는 사람이 주제넘게 얘기하는 것일수도 있지만, 해외에 있으니 이런 얘기도 할 수 있는 것. 밑에 어떤 분이 한국 사회 꼬이면 걍 미국에서 잘 살면 된다고 하는데, 맞는 말임. 한국의 네트워크 신경 안쓰고 하고 싶은 말 맘대로 할 수 있는게 저같은 사람의 장점임.


그래서 제가 제안하고 싶은 것은,


1. 여러 학회가 연대해서 통계청의 데이터 공개를 요구할 필요성이 있다는 것. 데이터 공개 Task Force를 학회가 연대해서 꾸리는 것도 한 방법. 


2. 여러 학회가 연대해서 국회의원을 상대로 로비를 할 필요가 있음. 데이터 공개를 하도록 법 개정을 해야 한다는 것. 프라이버시 문제나 국가 보안 문제가 아니면 모든 원자료를 공개하는 방식이 되어야 함.


3. 또 한가지 중요한 법개정은 3자 공여금지에 대한 지나친 제약을 풀어야 한다는 것. 통계청이 모든 행정자료의 허브인데, 데이터 3자 공여금지 때문에 설사 통계청에서 이 자료를 학자들에게 공개하고 싶어도 하기가 어려운 실정임. 


4. 그래도 통계청 자료를 활용하는데 보안상의 한계가 있으면 IPA (맥주 아님) 입법을 추진하는 것도 한 방법이라는 것. Intergovernmental personnel act라고 정부 기관끼리 내지는 정부 기관 밖(주로 대학)에 있는 사람을 한시적으로 part-time 공무원으로 만드는 것. 방학 동안에는 통계청 직원 신분을 획득하여 보안 문제 없이 데이타를 사용할 수 있게 해주는 방법이 될 수 있음.


블로그에서 이런 얘기 해봤자 별 소용없는거 알지만, 5년 동안 제가 아는 정상적인 통로로 아무리 얘기해도 별 반향도 없으니, 기회가 생긴 김에 담벼락에 외치는 심정으로 얘기한거임. 

Posted by 바이커 sovidence

제 질문에 대한 통계청 김신호 과장님 답글

김신호 과장님의 원래 페이스북 포스팅


이 글을 김신호 과장님에게 답장으로 쓸까 하다가, 그렇게 하지 않기로 했음. 답글이라고 달았지만 제 질문에 대한 답도 아니라, 별 의미도 없을 것 같고.  


사실 페친의 링크 덕분에 김신호 과장님의 글은 지난 주말에 읽어보았음. 패널 콘디셔닝 글을 안 읽어본건가? 설마 가계동향조사의 <횡단면 + 종단면> 성격에 대한 장문의 글도 올렸는데, 왜 이런 말씀을 하시지? 제발 좀 남의 글을 읽고 쓰시라고 여러번 말씀드렸는데, 설마 페이스북에 올린 이 글을 제 글에 대한 답으로 달지는 않겠지라고 생각하면서도... 뭔가 찜찜한 구석이 있었음. 페이스북의 그 글에 저에 대한 답글인 듯한, 그런 뒷목 땡기는 답답함.  





조직에서 터줏대감들이 임기제 굴러온 돌을 무력화 시키고 조직의 관행을 지킬 때 쓰는 흔한 방법이 있음. 하나는 의전으로 행사 뺑뺑이 돌리는 것. 이렇게 하면 업무 파악 못하고, 업무 지시도 못하고, 밖에서 의전만 받다가 임기 끝남. 다른 하나는 동문서답으로 굴러온 돌의 얘기가 쇠귀에 경읽기가 되게 만드는 것. 아무리 논리적으로 말해도 웃는 낯으로 예의를 갖춰서 딴소리하면 얘기하는 사람이 지쳐 나가떨어짐. 


상대방의 질문에 대답 안하고 자기가 하고 싶은 말 반복하는 것은, 미국 대통령 선거토론회 등 정치인 토론을 보면 늘상 쓰는 방법임. 토론이 목적이 아니라 언론플레이가 목적이면 흔히 쓰는 방법. 정치인들이 바보임? 질문에 대답도 못하게. 다 깊은 뜻이 있는 거임. 마찬가지로 중앙부처 과장이면 실무 관리의 정점인데, 이 분들이 바보임? 자기 영역에 대한 질문을 이해 못하게. 다 자기 조직에 맞는 생리가 있는거임.  






우야튼 김신호 과장의 글은 제 질문에 대한 답은 아니지만, 몇 가지 점에서 생각할 거리가 있음 (참고로 원래 제 질문은 요기에 쓴 제 글의 마지막에 있음). 


김신호 과장의 글은 소제목을 다는 등 논리적으로 글이 작성되어 내용이 쉽게 전달됨. 잘 쓰셨음. 포인트는 세가지임. 


첫번째는 가계동향조사의 분기 조사가 가지는 문제점.

두번째는 연속 표본 문제는 아니라는 것. 

세번째는 통계청 조직 확대가 필요하다는 것. 




우선 첫번째 포인트를 지적하며 쓴 분기 조사의 문제점은 다 동의함. 그런데 그게 이 번 2017-2018년 비교에 여러가지 튀는 통계가 나오는 이유임?


중학교 때 배우는 algebra에 이런게 있음. 

 (X1 + e) - (X2 + e) = (X1 - X2) 


여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. 


즉, 가계동향조사를 분기별로 하는 것은 문제지만, 지금까지 계속해서 그렇게 해왔기 때문에 올해 특별히 분기별 조사 때문에 시계열 비교를 못하는 것은 아니라는 것. 분기별 조사의 에러를 또 다른 분기별 조사의 에러로 상쇄해서 시계열 비교가 가능한 구조. 


따라서 첫번째 포인트는 다른 측면에서 필요한 논의긴 하지만, 시계열 비교의 적절성을 논의하는데 필요없는 물타기임. 





두번째로 연속 표본 문제가 아니라고 엉뚱한 말씀을 하는데, 아래 장문의 글에서 했던 말을 반복함.  


... 정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. ...






세번째가 사실 김신호 과장님 글의 백미. 가계동향조사를 다루는 공무원이 5급 서기관 1명, 주무관2명으로 3명인데, 이들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"하고, 조사내용도 "가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해"하다는 것. 따라서 조직확충이 필요하고, 이렇게 확충된 조직이 다른 간섭을 받지 않고 독립적으로 일할 수 있게 해줘야 한다는 것. 


가계동향조사 예산이 올해 28억이고, 내년에는 확대 개편을 위해 160억을 편성했다고 함. 국민 예산으로 28억짜리 조사를 했는데, 이 조사를 분석해서 공표하는 사람은 달랑 3명임. 정말 일당백의 용사들임. 공무원의 헌신이 느껴지심? 아무리 일당백의 용사라도, 이렇게 사람이 모자라면 모든 것을 카버할 수 없음. 중과부적. 


그런데 이거 좀 이상하지 않음?


이렇게 분석 인력이 보자랄 경우 28억짜리 조사를 활용하는 최선의 방법은 조사 원자료를 공개하고 여러 학자로 하여금 알아서 분석하게 함으로써 새로운 발견 사항은 없는지, 조사에 다른 문제는 없는지 알아내도록 하는 것. 사람이 적을수록 외부에 공개해서 분석을 풍부하게 해야 함. 


그런데 달랑 3명이 분석해 놓고, 통계청은 조사의 오남용을 우려해서 원자료 중 일부만 일반 공개함. 달랑 3명이서 전체 학계에서 어떤 변수는 오용하고 어떤 변수는 남용할지 판단해서 통제함. 


세상에 조사원자료를 공개하지 않으면서 프라이버시 보호도 아니고 학계의 오남용을 염려하는 논리는 또 처음 들어봄. 눈가리고 아웅이었지만 그래도 지금까지 그렇게는 얘기하지 않았음.


MDIS 이용자 센터에 가면 일반 공개하지 않는 데이타도 볼 수 있다는데, 여기가 걍 아무나 가서 앉아서 분석하는 곳이 아님. 신청하고, 허가받고, 보안검색 받아서 하는 곳임. 지금은 어떤지 모르겠지만 예전에는 설치된 통계 프로그램도 매우 제한적이었음.  


프라이버시 보호를 위해서 이런 장치가 필요하다는 것은 백퍼 동의함. 그런데 가중치 부여 등 오남용을 막기 위해서 MDIS 이용자 센터를 거치라고? 누가 들으면 MDIS 이용자 센터에서 어떤 분석을 어떻게 해야 하는지 친절하게 안내해주는줄 알겠음. 


세번째 포인트는 전형적인 조직보호의 논리임. 




그래서 모두가 알아야 할 오늘의 교훈: 

약은 약사에게, 처방은 의사에게, 데이타 오남용 판단은 통계청 공무원에게. 

Posted by 바이커 sovidence

최영섭 선생 페이스북 포스팅 


제 글에 대한 반박이라고 여러 분들이 링크도 걸어주고 메시지도 보내준 글임. 이 글에 대한 반박은 아래 패널 콘디셔닝에 대한 포스팅에서 다루었음. 이미 반박했는데도 계속해서 언급되고 질문이 들어오는 상황. 패널 콘디셔닝 포스팅도 나름 쉽게 썼다고 생각하지만 통계에 대한 상당한 지식이 있는 분들이 아니면 무슨 말인지 이해하기 어려웠을 것으로 판단됨. 그래서 제 능력이 닿는한 쉽게 왜 위에 링크한 글의 내용이 핀트가 어긋난 것인지 설명하고자 함. 쉽게 설명하려다 보니 이 글도 다소간의 스압이 있음. 





처음 글에서 이미 말했고 답글에서도 여러 번 반복했지만, 여기서 다시 환기시키면, 가계동향조사는 <횡단면 조사 + 종단면 조사>로 횡단면적 분석을 하는 특징을 가지고 있음. 


가계동향조사를 이해할 때 

1) 횡단면 조사를 목적으로 했다는 것과

2) 그런데 <횡단면 조사 + 종단면 조사>로 설계했다는 것, 

두 가지를 모두 이해해야 함. 통계청의 김신호 과장, 최영섭 선생 등 제 글을 비판한 거의 모든 분들이 1)에 대해서만 얘기하지 2)에 대해서 말하지 않고 있음.  


예를 들어 최영섭 선생은 다음과 같이 썼음: "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'에 대해서는 통계청 김신호 과장이 여러가지로 설명하고 있는데, 그걸 이해 못함. … 글쓴이(저)는 횡단면 조사의 표본 설계가 대체 어떻게 이뤄지는지 부터 다시 이해해야 함"이라고 저를 비판하고 있음. 


최영섭 선생의 비판과 달리 "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'" 전혀 없음. 패널 분석으로 가계동향조사를 비판하는 사람들이 이런 오해를 하고 있다고 생각하는 것 자체가, 가계동향조사 설계에 대한 이해의 부족을 드러냄. 


김영원 교수는 가계동향조사에 종단면적 성격을 추가한 것의 장점에 대해 간단히 언급하지만, 저와 경제학자들이 가계동향조사를 종단면 조사로 이해하고 있다는 식으로 잘못 비판하고 있음. 


가계동향조사의 패널부분을 따로 떼어내서 분석하는 사람들이 가계동향조사의 횡단면적 성격을 몰라서, 내지는 전체 표본의 모집단 대표성이 확보되면 시계열 비교에 무리가 없다는걸 몰라서 그러는게 아님. <횡단면 조사 + 종단면 조사>의 특성을 살려서 올해 표본에 문제가 있다고 제기된 부분을 검증하고자 하는 것. 최영섭 선생은 "표본의 연속성을 따지지 말고, 각 시점에서 조사가 제대로 되었는지를 따져야 함… 그 외의 논란은 초점을 벗어난 것임"이라고 자신있게 주장하는데, 그거 아님. 


이 글에서는 왜 횡단면 조사인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 설계했는지 설명하고자 함. 저를 비판하는 사람들은 그 이유를 모르는건지, 알면서도 무시하는 건지, 이런 설계의 장담점에 대해 전혀(내지는 거의) 언급하지 않음. 






그럼 최영섭 선생의 설명으로부터 시작해 보겠음. 


최영섭 선생은 예를 들면서, 100명이 전체 표본수인데 50명이 고소득층이고 50명이 저소득층일 때, 고소득층 50명은 유지되고, 50명 저소득층은 대체되면, 새로 대체되는 샘플이 50명 저소득층으로 들어와서 결국 전체 표본 100명이 저소득층과 고소득층을 포괄하냐가 문제지, 연속샘플과 신규샘플의 격차는 이슈가 아니라고 설명함. 연속 샘플만 보면 고소득층이고, 신규 샘플만 보면 저소득층이라 마치 두 샘플의 결과가 매우 다른데, 연속 표본과 신규 표본을 비교하는 건 엉터리라는 것. 무척 상식적인 주장처럼 들림. 


하지만 이런 설명은 도대체 왜 횡단면 비교 목적인 가계동향조사에 <횡단면 조사 + 종단면 조사>로 샘플링하는 설계를 도입했는지 이해하지 못하기 때문에 하는 용감한 주장임. 아마 극단적인 사례를 예로 든 것이겠지만, 이런 극단적인 사례를 피하라는게 바로 <횡단면 조사 + 종단면 조사>로 샘플링하는 이유임. 극단적 사례로 이 표집법을 설명하는게 바로 이 표집법에 대한 이해의 부족을 노출함. 자신있게 말하는데 만약 통계청에서 최영섭 선생이 예를 든 식으로 지역이든, 계층이든, 연령이든, 다른 어떤 다른 특성이든 가계동향조사의 연속 표본과 대체 표본의 차이가 극명하게 차이나게 설계했다면, 담당자는 업무 과실 내지는 무능으로 징계를 먹어 마땅함.  


횡단면 조사보다 종단면 조사가 돈도 많이 들고 어려움. 그럼에도 불구하고 <횡단면 조사 + 종단면 조사>로 가계동향조사 설계를 하는 이유는 이렇게 하면 시계열 비교의 안정성이 크게 높아지기 때문. 





그럼 왜 <횡단면 조사 + 종단면 조사>가 시계열 비교의 안정성을 높이는가? 


샘플 조사는 항상 여러가지 에러를 동반함. 최대한 랜덤 샘플링을 해도 순수 확률적 샘플링 에러가 있을 수 있음.  좀 더 심각하게는 어떤 이유에선가 샘플링이 랜덤이 아니고 편향될 수도 있음. 조사 방법을 바꾸면 랜덤 샘플이라도 비표집 에러 때문에 결과가 달라질 수 있음. 횡단면 조사에 종단면 성격을 삽입하면 랜덤 샘플 에러를 줄일 수 있고, 설사 일부 연도 표집에 편향이 있더라도 편향의 효과를 분산시킬 수 있음. 그래서 overtime comparison이 안정됨. (비표집 오차는 뒤에 간단히 얘기하기로 함. 이건 또 다른 이슈가 있음)


통계 101에서 배우듯 샘플링에 특정 편향을 배제하는 최선의 방법은 랜덤 샘플링임. 가계동향조사처럼 시계열적 비교를 목표로 할 경우 매년 무작위 표집을 해야 함. 만약 3년마다 1/3씩 샘플을 교체하면 각 연도별 1/3의 샘플이 아무런 작위 없는 랜덤이 되도록 설계해야 한다는 것. 이렇게 하면 설사 특정 해에 일반적으로 기대하는 범위를 벗어난 확률적 표집오차 내지는 편향이 있다 할지라도, 매년 1/3씩 랜덤하게 샘플을 교체하면, 표집의 bias 뿐만 아니라 표집오차도 헤징이 됨. 투자에 대한 격언으로 모든 계란을 한 바구니에 담지 말라는 말과 비슷한 것. 표본과 관련된 오차를 분산시킴으로써 시계열 비교의 안정성이 높아짐. 


이렇게 하지 않는 잘못된 예를 들자면 다음과 같음. 첫 해는 고소득층, 두번째 해는 중산층, 세번째 해는 저소득층을 교체하면, 첫해 고소득층을 추출할 때 생겼던 어떤 에러의 특성이 3년간 지속되고, 그 다음 3년은 중산층, 다음 3년은 저소득층의 에러의 특성이 지속됨. 매 년 1/3의 샘플을 랜덤하게 교체하는 것에 비해 소득 구간별 소득 측정의 3년 단위 에러 가능성을 높임. 이렇게 되면 교체 차에 나타난 소득 계층의 변화가 샘플 교체로 인한 것인지, 실제 변화를 반영하는 것인지 구분하기 어렵게 됨. 예를 들어 2015년 저소득층 샘플에 무슨 이유에선거 체계적 편향이 있었는데, 2018년 대체 샘플에서는 이 체계적 편향을 제거하고 제대로 샘플링을 했다면, 2017년과 2018년을 비교할 때 저소득층의 소득증감이 2015년에 잘못했던 체계적 편향 때문인지, 2017년과 2018년의 실체적 변화 때문인지 알 수 없게 됨. 


물론 샘플 추출에 에러가 전혀 없다면 이런 문제는 발생하지 않음. 하지만 에러가 전혀 없다는 보장이 없기에 가계동향조사처럼 횡단면+종단면으로 매년 1/3씩 샘플을 교체하는 것으로 설계해 에러 가능성과 정도를 줄이는 것.  


이 때문에 매년 1/3씩 샘플을 교체하고, 한 번 샘플에 들어오면 3년 유지를 목표로 하는 가계동향조사에서 각 1/3 샘플은 최대한 랜덤으로 유사한 특징을 가지게끔 설계해야만 함. 가계동향조사가 실제로 그렇게 설계했는지는 모르겠음. 하지만 통계 생산 전문가인 통계청이니 당연히 그렇게 했을 것으로 믿고 있음. 물론 매년 추계인구가 바뀌므로 신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함. (3년 유지 패널인데 탈락하기 때문에 추가하는 샘플도 있는게 논의의 편의를 위해 일단 그 이슈는 제외함). 


(여기서 잠깐. 통계를 아는 사람들도 가끔 잘못 이해하는 경우가 있는데 인구 통계에 대한 사전 정보가 있으면 이에 맞춰서 샘플을 조정할 수 있음. 이렇게 하면 오차가 줄어듦. 앞에서 완전 랜덤으로 샘플링해야 한다고 말한거 보고, 통계청에서는 인구에 대한 사전 정보 이용한다고 제가 뭔가 잘못안다는 식으로 뜬금포 날리기 없기.)





만약 아이디얼한 상황을 가정해서, 표집의 순수 확률적 랜덤 에러가 예외적으로 크지 않고, 편향이 없어서, 연속 표본과 대체 표본을 합친 전체 표본이 모집단을 잘 대표한다면 최영섭 선생의 주장처럼 연도별 표본 대체를 어떻게 하였든 전체 표본으로 시계열적 비교를 하는데 큰 문제가 없음. 아이디얼한 경우에는 횡단면 비교 목적인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 시행할 이유도 줆어듦. 


물론 이 경우에도 표집의 순수 확률적 랜덤 에러가 일반적 허용 범위를 벗어날, 매우 낮지만 그래도 0으로 만들 수 없는 "확률"은 항상 존재함. 누구나 복권을 사서 횡재할 확률이 있는 것과 마찬가지임. 그래서 통계 해석은 늘 확률로 해야함, 진리에 대한 확정이 아니고.  


다른 한 편 연속표본이나 대체표본이나 전체 모집단을 잘 대표하고, 시계열적 변화를 잘 반영한다면 가계동향조사의 패널 표본을 종단면적으로 분석해도 아무런 문제가 없음. 노말한 상황에서 전체 저소득층의 소득이 줄었는데, 연속표본으로 남은 집단만 소득이 오르는 일은 없음. 그러니까 연속표본과 대체표본에 아무런 바이어스가 없는 상황을 가정하고 주장하는 최영섭 선생의 주장은 가계동향조사를 패널로 분석해도 횡단면으로 분석할 때와 변화 방향이 일치할 것으로 예견할 때도 필요한 가정(=조건)임. 


그런데 표본자료에서 이 가정이 실제로 성립하는지, 아니면 뭔가 이 가정과 다른 에러가 있는건지 어떻게 앎? 불행히도 이 가정에 대한 직접적 검증은 불가능함. 통계 이론적으로 가정하는 것. 하지만 간접적 검증의 방법이 있음. 바로 전체 표본과 연속 표본의 결과에 상당한 차이가 나면 이 가정에 문제가 생겼다는 신호임. 바로 여기서 가계동향조사의 종단면 연속 샘플을 따로 떼어내서 혹시 에러는 없는건지 검증해볼 가능성이 생기는 것.  


정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. 






통계청에서 하는 어떤 조사도 일부러 편향된 표집을 하지는 않음. 최선을 다해 랜덤 샘플링을 하지만 그럼에도 불구하고 조사 방법이 바뀌면 뭔가 변화가 생기는 것. 표집오차일 수도 있고, 비표집오차일 수도 있음. 비표집오차의 예로  5,500개 샘플을 8,000개 샘플로 늘리면서 조사 품질 관리에 문제가 생길 수도 있음. 샘플수가 늘어나면 표집오차는 줄어들지만, 관리비용도 늘어나기 때문에 비표집오차는 증가함. 


가계동향조사는 작년과 올해 우여곡절을 겪었고, 표본 구성이 달라짐. 가구 추계도 2010년 베이스에서 2015년 베이스로 바뀌면서 변화의 정도도 커짐. 이렇게 변화가 있을 때 가계동향조사의 <횡단면 조사 + 종단면 조사> 설계는 변화된 표집으로 시계열적 비교의 안정성이 확보되는지 확인할 수 있는 중요한 수단을 제공함. 


위에서 설명했듯 표본 변화가 전체 추세에 영향을 끼치지 않았다면, 전체 표본의 시계열 변화와 연속 표본의 시계열 변화가 질적으로 동일한 결과가 나와야 함. 


그런데 이우진 교수가 검증해보니 연속 표본의 결과가 전체 표본과 상당히 다르게 나온 것. 그래서 내릴 수 있는 결론은 연속 표본의 결과가 맞다가 아니라, 전체 표본을 이용한 시계열 비교를 신뢰할 수 없다는 것임. 아래 그래프에서 보듯 평균값도 이상하게 튐. 


그러니 횡단면 조사의 표본 설계를 어떻게 하는지 모르고 연속 표본의 사이즈로 가계동향조사의 시계열 비교가 가능한 것으로 제가 오해하고 있다는 최영섭 선생의 비판은, 최영섭 선생이 <횡단면 조사 + 종단면 조사>이루어진 횡단면 조사 표본 설계의 원리를 잘 모르고 한 비판일 가능성이 농후함. 





Ps. 참고로 아래 올린 패널 콘디셔닝은 연속 표본과 전체 표본에 차이가 날 수 있는 한가지 잠재적 메카니즘에 대한 글임. 지금 쓴 이 포스팅 내용을 배경 지식으로 가지고 있어야 제대로 이해할 수 있는 얘기임. 


Pps. 최영섭 선생의 비판 중 첫번째 포인트인 면접식 도입이 2017년이라는 지적은 옳음. 다만 이 방식과 샘플 확대가 결합할 때 어떤 비표집오차를 일으킬지는 또 하나의 체크포인트. 


이런 가능성이 있음. 원래 기장식이던 가계동향조사에 2017년부터 면접식을 도입. 그런데 면접식은 기장식보다 면접원 통제라는 새로운 요소가 가미됨. 면접원에 따라 결과가 바뀌는 비표집오차의 가능성이 추가됨. 면접원의 품질 통제는 상당한 관리 비용이 들어감. 


그런데 2018년에 2017년에 비해 가계동향조사의 표본수가 크게 증가함. 이에 따라 면접원의 품질에 따른 비표집오차의 개입 개연성도 크게 증가됨. 즉, 비록 면접식의 도입은 2017년이지만, 이러한 면접 방식의 변화가 조사 결과에 더 크게 영향을 끼칠 가능성은 2018년일 수도 있다는 것 (꼭 그렇다는건 아님. 통계청에서 응답 방식에 대한 원자료를 제공하면 이것도 체크해볼 수 있음).  


그러니까 타당한 지적인 최영섭 선생의 첫번째 포인트도 2018년의 표본수 확대라는 문제까지 고려해서 좀 더 깊이 들어가면 그렇게 단순하게 조사방식 변경 효과는 무조건 2017년에 나타나야 한다고 주장할 수 있는게 아님. 

Posted by 바이커 sovidence

아래 어떤 분이 다음과 같은 답글을 달았음: 


"‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까."


연속 샘플을 이용한 이우진 교수의 결과와 전체 샘플을 이용한 통계청의 결과가 다른 이유는 소득이 오르고 기분이 좋은 사람만 계속 가계동향조사에 응하고 그렇지 않은 사람은 표본에서 탈락하기 때문이라는 것. 충분히 의심해 볼만 지적이고, 제 글에 문제가 있다고 비판하는 전문가 분들도 아마 이 점을 염두에 두고 있을 것으로 추정됨. 


논의가 논의이다 보니 어쩔 수 없이 자꾸 전문 용어 쓰게 되는데, 이렇게 패널조사에서 계속 남는 사람들은 탈락한 사람과 달리 살람살이가 좋아졌다던가 등의 뭔가 편향이 있다는걸 panel conditioning bias라고 함. 


그런데 이 논리에는 두가지 생각해볼 점이 있음. 


예를 들어 전체 인구로 보면 소득이 10% 줄었는데, 소득이 10% 오른 사람은 패널에 남았다고 가정해 보자. 이 경우 연속 패널이 2/3이고, 신규 패널이 1/3이면, 


(A) 전체 소득 증가율 = 0.10*2/3 + (-0.10)*1/3 = +0.033


소득이 3.3% 오른걸로 나옴. 


하지만 다른 모든 조건은 동일한데 연속 패널이 1/3이고, 신규 패널이 2/3로 패널 구성만 바꾸면, 즉 전체 인구로보면 소득이 10% 줄어든 상황은 동일한데, 패널의 구성만 바뀌었다고 치면, 


(B) 전체 소득 증가율 = 0.10*1/3 + (-0.10)*2/3 = -0.033


소득이 3.3% 줄어든걸로 바뀜. 


(A)나 (B)나 실제 변화를 정확히 반영하지 못하는 것은 마찬가지지만, 패널 구성에 변화만 없다면 시계열적 변화로 변화의 방향을 판단할 수는 있음. 하지만 패널 구성이 변화하게 되면 실제 변화와 패널 구성 변화가 혼재되어 버림. 


제 글에 가중치 문제 제기하는 분들이 많은데, 패널 콘디셔닝이 있을 때 신규패널과 연속패널의 구성을 바꾸면 가중치를 완전히 바꾸는 효과가 있음. 이 경우 패널 구성의 큰 변화가 있을 때 시계열적 변화는 의미가 없어짐. 


따라서 이우진 교수의 연속 샘플에서 저소득층의 소득이 올라간 것으로 나온 결과는 가계동향조사의 연속샘플의 어떤 선택 편향이 있는걸 고려하지 않아서 나타난 잘못된 결과라고 주장하는 사람들도 이우진 교수의 결론인 올해의 가계동향조사의 연도별 비교는 의미가 없다라는 주장에는 동의해야 정상임. 그런데 이 분들은 패널 콘디셔닝 문제를 암시하면서 이우진 교수가 틀렸고, 통계청의 기존 발표에 문제가 없다는 식으로 주장하고 있음. 





만약 연속 샘플과 전체 샘플에 차이가 없다면 이런 문제는 없음. 그 때문에 이우진 교수는 연속 샘플과 전체 샘플의 격차를 검증해 본 것. 이 논리를 모르고 연속 샘플과 전체 샘플은 다르다는, 통계를 제대로 이해하는 사람들 끼리 보면 기초적 지식에 해당하는 주장만 되뇌이면 곤란. 


또한 이우진 교수가 가중치를 제대로 적용하지 않았을 수도 있음. 이건 이우진 교수가 답해야 할 것. 헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임. 





다음으로 2017년과 올해 사이에 panel conditioning bias가 특이하게 컸다고 생각할 수도 있는데, 이 경우 2017년 가계동향조사의 샘플의 저소득층  attrition rate이 다른 해보다 유난히 컸어야 함. 이는 가계동향조사 샘플의 attrition에 정보를 모두 가지고 있는 통계청에서 바로 확인 가능함. 




어떤 경우가 맞는건지, 패널에 대한 변수가 제대로 있어야 검증할 수 있는데, 통계청에서는 일반 공개 원자료에서 이러한 bias를 알 수 있는 정보를 전혀 제공하지 않음. 


통계청에서 학자들이 가중치를 제대로 안줄까봐 원자료 제공을 꺼린다는데, 원자료를 공개하고 다수 학자들이 이를 쓰게하면 그 전에는 몰랐던 새로운 사실과 문제점을 알게되고, 이런 문제점을 개선하다보면 통계의 품질이 올라감. 한국에서 통계 품질 개선이 더딘 이유 중의 하나가 원자료를 공개하지 않아서 문제가 어디에 있는지 제대로 파악하지 못하는 것임. 


뭐 그래서 저의 결론은 항상 동일. 변수를 숨기지 말고 원자료를 공개합시다~

Posted by 바이커 sovidence

김신호 과장님, 


직접 댓글 (요기, 요기, 요기, 요기, 요기, 요기) 남겨주셔서 대단히 감사합니다. 통계청 주무부서를 거친 과장으로 답답해도 무시할 수 있는데 직접 댓글 남기고 소속을 밝힌 것은 큰 용기가 필요한 일이라고 생각됩니다. 


외람되지만 몇 가지 점에서 말씀드리고 싶은게 있고, 세 가지 질문도 드리고 싶습니다. 


우선, 이 블로그를 체크하시는 기자 분들이 간혹 있습니다. 통계청 과장 신분을 밝히고 댓글을 남기실 때는 혹시 책잡힐 것은 없는지 각별히 유념하시는 것이 좋습니다. 가계동향조사와 가금복을 과장시절에 직접 담당하셨다고 하니, 아래 남겨주시고 또 남겨주실 것으로 기대하는 글들이 통계청 공식 입장은 아니더라도, 통계청에 계신 핵심담당자들의 지배적 의견을 반영하고 있다고 대부분 믿을 것입니다. 


앞서도 두 번 말씀드렸지만 부디 글을 읽고서 답변하시기를 부탁드립니다. 아래 글에서 명확히 밝혔듯, 연속표본을 이용한 분석은 고려대 이우진 교수님이 한 것입니다. MDIS에서 제공하는 원자료에는 연속표본인지 신규표본인지에 대한 정보가 없기 때문에 저는 이 분석이 불가능합니다. 그렇기에 저에게 연속 표본을 이용한 분석에 가중치를 제대로 주었냐는 질문은 적절치 않습니다. 


과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다. 참고로 저는 사회과학자들을 대상으로 가중치를 어떻게 주어야하는지에 대한 특강을 한 적도 있습니다. 


저에게 표집에 대한 전체 정보가 있는 원자료를 주시면 retention에 대한 가중치를 보정한 후의 연속 샘플 결과를 분석할 수 있고, 2017년과 2018년의 모집단 추정 변화에 따른 효과를 통제한 후 2018년에도 2017년과 모집단 분포에 변화가 없다고 가정할 때의 counterfactual한 변화를 분석할 수 있습니다. 현재 논란이 되고 있는, 2015년 센서스에 기반한 가구변화, 연속샘플과 신규샘플의 특정 변화를 모두 통제한 후에 결과에 일관성이 있는지 분석해 볼 수 있습니다. 


고려대 이우진 교수가 가중치를 제대로 부여하여 분석했는지 그러지 못했는지, 가중치를 바꾸면 결과가 달라지는지를 저 같은 사람에게 원자료를 주시면 검증해 볼 수 있습니다. 더욱이 한국에서는 보수적인 정치적 입장을 가진 학자가 진보적인 분 보다 훨씬 많습니다. 이우진 교수의 분석이 잘못된 것이면, 보수적인 학자들이 알아서 반박할 것입니다. 그런데 지금은 자료가 없으니 누구도 이우진 교수에 대해서 반박하지 못하는 것 아닙니까.


그러니 학자들에게 원자료를 제공하면 retention rate에 따른 가중치 변화를 제대로 보지 못할 것이라는 염려는 하지 않으셔도 좋습니다. 모 기자처럼 원자료를 줘도 뭘 제대로 모르고 엉뚱한 소리를 하는 사람도 물론 있겠지만, 이 때문에 연속표본인지 대체표본인지를 알 수 있는 식별자 자체를 제공하지 않는 통계청의 결정은 잘못된 것입니다. 좋게 표현해 구더기 무서워 장 못담그는 노파심이고, 심하게 말해 국민 세금으로 만든 공유자산을 사유재산처럼 독점하는 것입니다. 이런 행태는 프라이버시 보호도 아닙니다. 논란거리를 차단하겠다는 조직 이기주의일 뿐이죠. 


학자들도 공무원을 무시하는 경향이 많으니 과장님 개인으로써는 매우 불쾌할 수도 있고, 피차일반이라고 할 수도 있으나, 과장님과 통계청의 결정은 공적인 것입니다. 제대로 분석하지 못하고 엉뚱한 소리하는 학자나 기사에 대한 대응은 그것대로 필요한 것이지, 원자료를 제공하지 않으면서 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는"다고 말하는 것은 이해하기 어려운 결정입니다. 이런 마인드를 가지고 있으니 정책 기관과 청와대에서 원자료 전체를 달라는 걸, 마치 통계청의 권한을 침해한 것으로 느끼는 것 아닙니까. 





여기서 질문 드리겠습니다. 기우에서 미리 말씀드리면 일반론을 반복하지 마시고 질문에 답변해주실 것을 부탁드립니다. 과장님이 링크해 주신 글들은 통계학 처음 공부하는 학부생이나 석사 과정생들이 읽으면 도움이 될만한 정도의 일반론입니다. 그 수준의 얘기가 아닙니다. 논의를 이해하지 못해서 일반론을 반복하는 것인지, 알지만 물타기 할려고 하는 건지 모르겠지만, 둘 다 좋은 신호는 아닙니다. 본 글에서 연속표본과 전체표본에 차이가날 여러 가능성에 대해서 언급해 두었습니다. 원자료를 제공하지 않는 이상, 통계청에서 소상히 연속표본과 전체표본에 차이가 나는 이유를 밝혀야 합니다. 


그럼 진짜로 질문 드립니다. 


첫번째로 통계청에서 탈락 표본이 생겨서 대체할 때 어떤 변수를 감안하여 대체하시나요? 대체 표본의 attrition 효과를 고려하여 가중치를 구하시나요? 그렇다면 가중치를 구할 때 통제하는 변수는 무엇입니까? 대체 표본을 산정할 때 탈락 표본의 소득도 명시적 고려 사항입니까? 


두번째로 소득에 따른 attrition rate의 차이가 얼마나 되나요? 만약 소득이 대체 표본의 명시적 고려사항이 아니라면, 소득에 따른 탈락률의 차이가 불평등 측정에 어떤 영향을 끼친다고 생각하고 계십니까? 추가 샘플이 이 번 처럼 많을 경우 이 효과가 어떤 영향을 끼친다고 가정하시는가요? 실제로 그런 분석을 해보셨습니까? 


마지막으로 과장님 말씀은 가중치를 제대로 주고 분석하면 통계청에서 원래 발표했던 내용이 연속표본에서도 재현되는 것처럼 들립니다. 그게 아니라면 반복해서 말씀하시는 가중치 얘기는 동문서답이 됩니다. 그런 결과가 나옵니까? 





학자들 사이에서도 제가 논쟁을 할 때 매우 직설적이고, 단도직입적으로 쟁점을 단순화해서 제기하는 것으로 악명이 높습니다. 저는 그래야 차이가 분명해지고 서로 합의하고 논쟁할 수 있는 것과, 입장의 차이를 확인하고 정리해야 하는 것들이 분명해 진다고 느껴서요. 이런 식의 어법이 대민상대가 많은 공무원들의 일반적인 언어구사법이 아니라 당혹스러우실 수도 있다고 생각됩니다. 널리 양해해주시기를 부탁드립니다. 


다시 한 번 용기를 내서 답글 써주신 것에 감사드립니다. 추가로 시간내셔서 제 질문에 구체적인 답변을 주시면 저 뿐만 아니라 다른 많은 분들에게, 나아가 현재의 국가적 논란을 정리하는데 크게 도움이 될 것입니다. 

Posted by 바이커 sovidence