2017년 대비 2018년 가계동향조사의 시계열 비교 적절성과 관련해서 서로 간에 아마 더 할 말도 없을 것으로 생각함. 비표집오차에 대해서 몇 가지 생각이 있지만, 가설 수준이고 별 관심도 없을 것. 관련 변수를 모두 포괄하는 원자료가 공개되지 않는 이상 논의가 겉돌 것으로 생각함.  


일부에서는 현 정부를 옹호하기 위해서 원자료 공개를 얘기한다고 생각하겠지만 (뭐 그렇게 생각하는게 이상한 것도 아님), 원자료 공개에 대한 제 생각과 활동은 좀 오래되었음. 통계청장 교체와 가계동향조사 신뢰성 논란이 일어난 김에 제가 원래 관심 있었던 주제를 쎄게 이슈파이팅한 것.   


아는 분은 다들 아시겠지만 지난 5년 동안 한국에 가거나 사회학자들을 만나기만 하면 했던 얘기가 바로 원자료 공개에 대한 것. 2015년에는 한국사회학대회에서 당시 회장님께 부탁해서 사회학의 데이타 문제에 대한 세션을 열고, 자료 이용에 대한 외국의 트렌드와 한국 사회에서 필요한 조치에 대해 제 의견을 발표한 적도 있음. 2017년에 올렸던 행정자료에 대한 이 포스팅이 그 때 발표의 일부였음. 이 때도 제가 워낙 세게 얘기해서, 당시 청중이었던 한 학자분은 저보고 한국 사회학은 데이타가 없어서 망할 것처럼 주장했다고 함.   


제가 아는 통계청 분들에게도 이 이슈에 대해서 말씀드린 적이 여러번 있음. 통계청에도 몇 번 찾아갔음. MDIS 만들기 전에 미국의 RDC 얘기도 많이 했었음. 


지금의 이슈 파이팅은 올해 갑자기 가계동향조사가 문제가 되어서 급조한 것이 아니라, 짧게는 5년, 좀 길게보면 10년 넘게 관심을 가지고 꾸준히 생각하고 오프라인에서 얘기했던 것임. 한국 사회에 아무 것도 기여하는거 없지만, 남들이 잘안하는 유일한 기여가 있다면 원자료 공개 문제일 것으로 생각했음.  


    




한국 통계청의 원자료 공개에 대한 거부감은 제가 알기로 외부에서 생각하는 것보다 훨씬 더 큼. 특히 정책 판단에 직접적 영향력을 행사하는 과장단, 국장단의 거부감은 꽤 심한 편임. 많은 분들이 김신호 과장님의 발언에 놀랐겠지만, 김신호 과장님의 태도는 전향적인 편으로 느껴짐. 김신호 과장님은 MDIS를 만든 유경준 전청장을 칭찬하지만, MDIS 만들 때 통계청 분들이 유경준 당시 청장을 마냥 칭찬한 것이 아님. 


통계청이 외부에서 온 청장의 지시나, 외부의 압력없이 자발적으로 원자료 공개를 확대할 가능성에 대해서는 솔직히 회의적임.  





한국에서 미국으로 유학오는 분들에게 이러저러한 얘기를 많이 하는데, 그 중 하나가 한국 연구를 main research area로 삼지 말라는 것. 두 가지 이유가 있는데 하나는 한국이든 미국이든 교수직을 구할려면 미국 저널에 논문 출간을 많이 해야 함. 그런데 한국은 연구 사례로 미국 저널에 크게 흥미가 있는 케이스가 아니라 논문 출간이 어려움.


다른 하나는 설사 이론적으로 흥미있는 질문을 해도 한국 데이타가 부실해서 일관성있는 논지를 피거나 믿을만한 통계 결과를 제시하기 어렵기 때문. 한국에 대한 논문을 여러 번 리뷰했는데, 데이타 단계에서 부터 도저히 사회학 유수 저널에 채택하라고 권고할 수가 없음. 


개인적으로는 한국 교육의 노동시장 효과를 연구하는게 있는데, 데이타마다 교육 프리미엄이 증가하는지 감소하는지 경향이 다르게 나옴. 어느게 맞는건지 알 수가 없음. 돌아버리겠음.   


한국에서 SSK로 상당한 비용을 사회과학계에 지원하고 있고, 학자들에게 SSCI 논문 출간하라고 독려하고 있음. 교수들은 SSCI에 논문이 없으면 정년 보장도 못받음. 그런데 통계청의 고퀄러티 원자료의 공개확대 없이 한국 사회과학이 발전하기 어려움. 장담하는데, SSK 예산 늘리는 것보다 통계청 데이타의 공개 수준을 높이면 SSCI에 출간되는 한국 사례 논문이 늘고, 한국 사회과학이 더 크게 발전할 것. 





요즘 사회과학 경쟁의 절반은 데이터 싸움이라고 해도 과언이 아님. 최근 사회과학의 최고 자료는 주로 스칸다나비아 국가에서 나오고 있음. 이 나라들에서 학자들에게 공개하는 데이타의 수준이 어마어마함. 전국민의 모든 데이타를 사회과학자들에게 허용하고 있다고 해도 과언이 아님. 북구학자들은 툭하면 전국민의 소득 증가율을 실제로 봤더니... 하면서 논문이 나옴. 세금데이타를 교육부 자료와 연결시키고, 헬스데이타까지 모두 붙여서 학자들에게 쓰게 하니 가능한 것. 물론 이 수준의 데이타가 일반 공개는 아니고 MDIS 같은 보안을 거쳐야 함. 


올초에 뉴욕에서 행정자료에 대한 소규모지만 학계의 거물들이 많이 참석한 심포지움에 어쩌다 참석한 적이 있음. 여기서 나온 얘기 중 하나가 언제까지 고퀄 데이타가 북구 국가에서 나오는걸 지켜봐야 하냐고, 미국도 그 인프라를 구축해야 한다는 것이었음. 그 심포지움을 주최한 Foundation 대표가 나와서 이 인프라 구축을 위해 연구자금을 넉넉히 지원할 의향이 있다고도 얘기하고. 가계동향조사의 연속표본 ID 공개도 안하는 한국과 대비가 되어도 너무 됨.


 

 


해외에 있는 사람이 주제넘게 얘기하는 것일수도 있지만, 해외에 있으니 이런 얘기도 할 수 있는 것. 밑에 어떤 분이 한국 사회 꼬이면 걍 미국에서 잘 살면 된다고 하는데, 맞는 말임. 한국의 네트워크 신경 안쓰고 하고 싶은 말 맘대로 할 수 있는게 저같은 사람의 장점임.


그래서 제가 제안하고 싶은 것은,


1. 여러 학회가 연대해서 통계청의 데이터 공개를 요구할 필요성이 있다는 것. 데이터 공개 Task Force를 학회가 연대해서 꾸리는 것도 한 방법. 


2. 여러 학회가 연대해서 국회의원을 상대로 로비를 할 필요가 있음. 데이터 공개를 하도록 법 개정을 해야 한다는 것. 프라이버시 문제나 국가 보안 문제가 아니면 모든 원자료를 공개하는 방식이 되어야 함.


3. 또 한가지 중요한 법개정은 3자 공여금지에 대한 지나친 제약을 풀어야 한다는 것. 통계청이 모든 행정자료의 허브인데, 데이터 3자 공여금지 때문에 설사 통계청에서 이 자료를 학자들에게 공개하고 싶어도 하기가 어려운 실정임. 


4. 그래도 통계청 자료를 활용하는데 보안상의 한계가 있으면 IPA (맥주 아님) 입법을 추진하는 것도 한 방법이라는 것. Intergovernmental personnel act라고 정부 기관끼리 내지는 정부 기관 밖(주로 대학)에 있는 사람을 한시적으로 part-time 공무원으로 만드는 것. 방학 동안에는 통계청 직원 신분을 획득하여 보안 문제 없이 데이타를 사용할 수 있게 해주는 방법이 될 수 있음.


블로그에서 이런 얘기 해봤자 별 소용없는거 알지만, 5년 동안 제가 아는 정상적인 통로로 아무리 얘기해도 별 반향도 없으니, 기회가 생긴 김에 담벼락에 외치는 심정으로 얘기한거임. 

Posted by 바이커 sovidence

제 질문에 대한 통계청 김신호 과장님 답글

김신호 과장님의 원래 페이스북 포스팅


이 글을 김신호 과장님에게 답장으로 쓸까 하다가, 그렇게 하지 않기로 했음. 답글이라고 달았지만 제 질문에 대한 답도 아니라, 별 의미도 없을 것 같고.  


사실 페친의 링크 덕분에 김신호 과장님의 글은 지난 주말에 읽어보았음. 패널 콘디셔닝 글을 안 읽어본건가? 설마 가계동향조사의 <횡단면 + 종단면> 성격에 대한 장문의 글도 올렸는데, 왜 이런 말씀을 하시지? 제발 좀 남의 글을 읽고 쓰시라고 여러번 말씀드렸는데, 설마 페이스북에 올린 이 글을 제 글에 대한 답으로 달지는 않겠지라고 생각하면서도... 뭔가 찜찜한 구석이 있었음. 페이스북의 그 글에 저에 대한 답글인 듯한, 그런 뒷목 땡기는 답답함.  





조직에서 터줏대감들이 임기제 굴러온 돌을 무력화 시키고 조직의 관행을 지킬 때 쓰는 흔한 방법이 있음. 하나는 의전으로 행사 뺑뺑이 돌리는 것. 이렇게 하면 업무 파악 못하고, 업무 지시도 못하고, 밖에서 의전만 받다가 임기 끝남. 다른 하나는 동문서답으로 굴러온 돌의 얘기가 쇠귀에 경읽기가 되게 만드는 것. 아무리 논리적으로 말해도 웃는 낯으로 예의를 갖춰서 딴소리하면 얘기하는 사람이 지쳐 나가떨어짐. 


상대방의 질문에 대답 안하고 자기가 하고 싶은 말 반복하는 것은, 미국 대통령 선거토론회 등 정치인 토론을 보면 늘상 쓰는 방법임. 토론이 목적이 아니라 언론플레이가 목적이면 흔히 쓰는 방법. 정치인들이 바보임? 질문에 대답도 못하게. 다 깊은 뜻이 있는 거임. 마찬가지로 중앙부처 과장이면 실무 관리의 정점인데, 이 분들이 바보임? 자기 영역에 대한 질문을 이해 못하게. 다 자기 조직에 맞는 생리가 있는거임.  






우야튼 김신호 과장의 글은 제 질문에 대한 답은 아니지만, 몇 가지 점에서 생각할 거리가 있음 (참고로 원래 제 질문은 요기에 쓴 제 글의 마지막에 있음). 


김신호 과장의 글은 소제목을 다는 등 논리적으로 글이 작성되어 내용이 쉽게 전달됨. 잘 쓰셨음. 포인트는 세가지임. 


첫번째는 가계동향조사의 분기 조사가 가지는 문제점.

두번째는 연속 표본 문제는 아니라는 것. 

세번째는 통계청 조직 확대가 필요하다는 것. 




우선 첫번째 포인트를 지적하며 쓴 분기 조사의 문제점은 다 동의함. 그런데 그게 이 번 2017-2018년 비교에 여러가지 튀는 통계가 나오는 이유임?


중학교 때 배우는 algebra에 이런게 있음. 

 (X1 + e) - (X2 + e) = (X1 - X2) 


여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. 


즉, 가계동향조사를 분기별로 하는 것은 문제지만, 지금까지 계속해서 그렇게 해왔기 때문에 올해 특별히 분기별 조사 때문에 시계열 비교를 못하는 것은 아니라는 것. 분기별 조사의 에러를 또 다른 분기별 조사의 에러로 상쇄해서 시계열 비교가 가능한 구조. 


따라서 첫번째 포인트는 다른 측면에서 필요한 논의긴 하지만, 시계열 비교의 적절성을 논의하는데 필요없는 물타기임. 





두번째로 연속 표본 문제가 아니라고 엉뚱한 말씀을 하는데, 아래 장문의 글에서 했던 말을 반복함.  


... 정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. ...






세번째가 사실 김신호 과장님 글의 백미. 가계동향조사를 다루는 공무원이 5급 서기관 1명, 주무관2명으로 3명인데, 이들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"하고, 조사내용도 "가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해"하다는 것. 따라서 조직확충이 필요하고, 이렇게 확충된 조직이 다른 간섭을 받지 않고 독립적으로 일할 수 있게 해줘야 한다는 것. 


가계동향조사 예산이 올해 28억이고, 내년에는 확대 개편을 위해 160억을 편성했다고 함. 국민 예산으로 28억짜리 조사를 했는데, 이 조사를 분석해서 공표하는 사람은 달랑 3명임. 정말 일당백의 용사들임. 공무원의 헌신이 느껴지심? 아무리 일당백의 용사라도, 이렇게 사람이 모자라면 모든 것을 카버할 수 없음. 중과부적. 


그런데 이거 좀 이상하지 않음?


이렇게 분석 인력이 보자랄 경우 28억짜리 조사를 활용하는 최선의 방법은 조사 원자료를 공개하고 여러 학자로 하여금 알아서 분석하게 함으로써 새로운 발견 사항은 없는지, 조사에 다른 문제는 없는지 알아내도록 하는 것. 사람이 적을수록 외부에 공개해서 분석을 풍부하게 해야 함. 


그런데 달랑 3명이 분석해 놓고, 통계청은 조사의 오남용을 우려해서 원자료 중 일부만 일반 공개함. 달랑 3명이서 전체 학계에서 어떤 변수는 오용하고 어떤 변수는 남용할지 판단해서 통제함. 


세상에 조사원자료를 공개하지 않으면서 프라이버시 보호도 아니고 학계의 오남용을 염려하는 논리는 또 처음 들어봄. 눈가리고 아웅이었지만 그래도 지금까지 그렇게는 얘기하지 않았음.


MDIS 이용자 센터에 가면 일반 공개하지 않는 데이타도 볼 수 있다는데, 여기가 걍 아무나 가서 앉아서 분석하는 곳이 아님. 신청하고, 허가받고, 보안검색 받아서 하는 곳임. 지금은 어떤지 모르겠지만 예전에는 설치된 통계 프로그램도 매우 제한적이었음.  


프라이버시 보호를 위해서 이런 장치가 필요하다는 것은 백퍼 동의함. 그런데 가중치 부여 등 오남용을 막기 위해서 MDIS 이용자 센터를 거치라고? 누가 들으면 MDIS 이용자 센터에서 어떤 분석을 어떻게 해야 하는지 친절하게 안내해주는줄 알겠음. 


세번째 포인트는 전형적인 조직보호의 논리임. 




그래서 모두가 알아야 할 오늘의 교훈: 

약은 약사에게, 처방은 의사에게, 데이타 오남용 판단은 통계청 공무원에게. 

Posted by 바이커 sovidence

최영섭 선생 페이스북 포스팅 


제 글에 대한 반박이라고 여러 분들이 링크도 걸어주고 메시지도 보내준 글임. 이 글에 대한 반박은 아래 패널 콘디셔닝에 대한 포스팅에서 다루었음. 이미 반박했는데도 계속해서 언급되고 질문이 들어오는 상황. 패널 콘디셔닝 포스팅도 나름 쉽게 썼다고 생각하지만 통계에 대한 상당한 지식이 있는 분들이 아니면 무슨 말인지 이해하기 어려웠을 것으로 판단됨. 그래서 제 능력이 닿는한 쉽게 왜 위에 링크한 글의 내용이 핀트가 어긋난 것인지 설명하고자 함. 쉽게 설명하려다 보니 이 글도 다소간의 스압이 있음. 





처음 글에서 이미 말했고 답글에서도 여러 번 반복했지만, 여기서 다시 환기시키면, 가계동향조사는 <횡단면 조사 + 종단면 조사>로 횡단면적 분석을 하는 특징을 가지고 있음. 


가계동향조사를 이해할 때 

1) 횡단면 조사를 목적으로 했다는 것과

2) 그런데 <횡단면 조사 + 종단면 조사>로 설계했다는 것, 

두 가지를 모두 이해해야 함. 통계청의 김신호 과장, 최영섭 선생 등 제 글을 비판한 거의 모든 분들이 1)에 대해서만 얘기하지 2)에 대해서 말하지 않고 있음.  


예를 들어 최영섭 선생은 다음과 같이 썼음: "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'에 대해서는 통계청 김신호 과장이 여러가지로 설명하고 있는데, 그걸 이해 못함. … 글쓴이(저)는 횡단면 조사의 표본 설계가 대체 어떻게 이뤄지는지 부터 다시 이해해야 함"이라고 저를 비판하고 있음. 


최영섭 선생의 비판과 달리 "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'" 전혀 없음. 패널 분석으로 가계동향조사를 비판하는 사람들이 이런 오해를 하고 있다고 생각하는 것 자체가, 가계동향조사 설계에 대한 이해의 부족을 드러냄. 


김영원 교수는 가계동향조사에 종단면적 성격을 추가한 것의 장점에 대해 간단히 언급하지만, 저와 경제학자들이 가계동향조사를 종단면 조사로 이해하고 있다는 식으로 잘못 비판하고 있음. 


가계동향조사의 패널부분을 따로 떼어내서 분석하는 사람들이 가계동향조사의 횡단면적 성격을 몰라서, 내지는 전체 표본의 모집단 대표성이 확보되면 시계열 비교에 무리가 없다는걸 몰라서 그러는게 아님. <횡단면 조사 + 종단면 조사>의 특성을 살려서 올해 표본에 문제가 있다고 제기된 부분을 검증하고자 하는 것. 최영섭 선생은 "표본의 연속성을 따지지 말고, 각 시점에서 조사가 제대로 되었는지를 따져야 함… 그 외의 논란은 초점을 벗어난 것임"이라고 자신있게 주장하는데, 그거 아님. 


이 글에서는 왜 횡단면 조사인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 설계했는지 설명하고자 함. 저를 비판하는 사람들은 그 이유를 모르는건지, 알면서도 무시하는 건지, 이런 설계의 장담점에 대해 전혀(내지는 거의) 언급하지 않음. 






그럼 최영섭 선생의 설명으로부터 시작해 보겠음. 


최영섭 선생은 예를 들면서, 100명이 전체 표본수인데 50명이 고소득층이고 50명이 저소득층일 때, 고소득층 50명은 유지되고, 50명 저소득층은 대체되면, 새로 대체되는 샘플이 50명 저소득층으로 들어와서 결국 전체 표본 100명이 저소득층과 고소득층을 포괄하냐가 문제지, 연속샘플과 신규샘플의 격차는 이슈가 아니라고 설명함. 연속 샘플만 보면 고소득층이고, 신규 샘플만 보면 저소득층이라 마치 두 샘플의 결과가 매우 다른데, 연속 표본과 신규 표본을 비교하는 건 엉터리라는 것. 무척 상식적인 주장처럼 들림. 


하지만 이런 설명은 도대체 왜 횡단면 비교 목적인 가계동향조사에 <횡단면 조사 + 종단면 조사>로 샘플링하는 설계를 도입했는지 이해하지 못하기 때문에 하는 용감한 주장임. 아마 극단적인 사례를 예로 든 것이겠지만, 이런 극단적인 사례를 피하라는게 바로 <횡단면 조사 + 종단면 조사>로 샘플링하는 이유임. 극단적 사례로 이 표집법을 설명하는게 바로 이 표집법에 대한 이해의 부족을 노출함. 자신있게 말하는데 만약 통계청에서 최영섭 선생이 예를 든 식으로 지역이든, 계층이든, 연령이든, 다른 어떤 다른 특성이든 가계동향조사의 연속 표본과 대체 표본의 차이가 극명하게 차이나게 설계했다면, 담당자는 업무 과실 내지는 무능으로 징계를 먹어 마땅함.  


횡단면 조사보다 종단면 조사가 돈도 많이 들고 어려움. 그럼에도 불구하고 <횡단면 조사 + 종단면 조사>로 가계동향조사 설계를 하는 이유는 이렇게 하면 시계열 비교의 안정성이 크게 높아지기 때문. 





그럼 왜 <횡단면 조사 + 종단면 조사>가 시계열 비교의 안정성을 높이는가? 


샘플 조사는 항상 여러가지 에러를 동반함. 최대한 랜덤 샘플링을 해도 순수 확률적 샘플링 에러가 있을 수 있음.  좀 더 심각하게는 어떤 이유에선가 샘플링이 랜덤이 아니고 편향될 수도 있음. 조사 방법을 바꾸면 랜덤 샘플이라도 비표집 에러 때문에 결과가 달라질 수 있음. 횡단면 조사에 종단면 성격을 삽입하면 랜덤 샘플 에러를 줄일 수 있고, 설사 일부 연도 표집에 편향이 있더라도 편향의 효과를 분산시킬 수 있음. 그래서 overtime comparison이 안정됨. (비표집 오차는 뒤에 간단히 얘기하기로 함. 이건 또 다른 이슈가 있음)


통계 101에서 배우듯 샘플링에 특정 편향을 배제하는 최선의 방법은 랜덤 샘플링임. 가계동향조사처럼 시계열적 비교를 목표로 할 경우 매년 무작위 표집을 해야 함. 만약 3년마다 1/3씩 샘플을 교체하면 각 연도별 1/3의 샘플이 아무런 작위 없는 랜덤이 되도록 설계해야 한다는 것. 이렇게 하면 설사 특정 해에 일반적으로 기대하는 범위를 벗어난 확률적 표집오차 내지는 편향이 있다 할지라도, 매년 1/3씩 랜덤하게 샘플을 교체하면, 표집의 bias 뿐만 아니라 표집오차도 헤징이 됨. 투자에 대한 격언으로 모든 계란을 한 바구니에 담지 말라는 말과 비슷한 것. 표본과 관련된 오차를 분산시킴으로써 시계열 비교의 안정성이 높아짐. 


이렇게 하지 않는 잘못된 예를 들자면 다음과 같음. 첫 해는 고소득층, 두번째 해는 중산층, 세번째 해는 저소득층을 교체하면, 첫해 고소득층을 추출할 때 생겼던 어떤 에러의 특성이 3년간 지속되고, 그 다음 3년은 중산층, 다음 3년은 저소득층의 에러의 특성이 지속됨. 매 년 1/3의 샘플을 랜덤하게 교체하는 것에 비해 소득 구간별 소득 측정의 3년 단위 에러 가능성을 높임. 이렇게 되면 교체 차에 나타난 소득 계층의 변화가 샘플 교체로 인한 것인지, 실제 변화를 반영하는 것인지 구분하기 어렵게 됨. 예를 들어 2015년 저소득층 샘플에 무슨 이유에선거 체계적 편향이 있었는데, 2018년 대체 샘플에서는 이 체계적 편향을 제거하고 제대로 샘플링을 했다면, 2017년과 2018년을 비교할 때 저소득층의 소득증감이 2015년에 잘못했던 체계적 편향 때문인지, 2017년과 2018년의 실체적 변화 때문인지 알 수 없게 됨. 


물론 샘플 추출에 에러가 전혀 없다면 이런 문제는 발생하지 않음. 하지만 에러가 전혀 없다는 보장이 없기에 가계동향조사처럼 횡단면+종단면으로 매년 1/3씩 샘플을 교체하는 것으로 설계해 에러 가능성과 정도를 줄이는 것.  


이 때문에 매년 1/3씩 샘플을 교체하고, 한 번 샘플에 들어오면 3년 유지를 목표로 하는 가계동향조사에서 각 1/3 샘플은 최대한 랜덤으로 유사한 특징을 가지게끔 설계해야만 함. 가계동향조사가 실제로 그렇게 설계했는지는 모르겠음. 하지만 통계 생산 전문가인 통계청이니 당연히 그렇게 했을 것으로 믿고 있음. 물론 매년 추계인구가 바뀌므로 신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함. (3년 유지 패널인데 탈락하기 때문에 추가하는 샘플도 있는게 논의의 편의를 위해 일단 그 이슈는 제외함). 


(여기서 잠깐. 통계를 아는 사람들도 가끔 잘못 이해하는 경우가 있는데 인구 통계에 대한 사전 정보가 있으면 이에 맞춰서 샘플을 조정할 수 있음. 이렇게 하면 오차가 줄어듦. 앞에서 완전 랜덤으로 샘플링해야 한다고 말한거 보고, 통계청에서는 인구에 대한 사전 정보 이용한다고 제가 뭔가 잘못안다는 식으로 뜬금포 날리기 없기.)





만약 아이디얼한 상황을 가정해서, 표집의 순수 확률적 랜덤 에러가 예외적으로 크지 않고, 편향이 없어서, 연속 표본과 대체 표본을 합친 전체 표본이 모집단을 잘 대표한다면 최영섭 선생의 주장처럼 연도별 표본 대체를 어떻게 하였든 전체 표본으로 시계열적 비교를 하는데 큰 문제가 없음. 아이디얼한 경우에는 횡단면 비교 목적인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 시행할 이유도 줆어듦. 


물론 이 경우에도 표집의 순수 확률적 랜덤 에러가 일반적 허용 범위를 벗어날, 매우 낮지만 그래도 0으로 만들 수 없는 "확률"은 항상 존재함. 누구나 복권을 사서 횡재할 확률이 있는 것과 마찬가지임. 그래서 통계 해석은 늘 확률로 해야함, 진리에 대한 확정이 아니고.  


다른 한 편 연속표본이나 대체표본이나 전체 모집단을 잘 대표하고, 시계열적 변화를 잘 반영한다면 가계동향조사의 패널 표본을 종단면적으로 분석해도 아무런 문제가 없음. 노말한 상황에서 전체 저소득층의 소득이 줄었는데, 연속표본으로 남은 집단만 소득이 오르는 일은 없음. 그러니까 연속표본과 대체표본에 아무런 바이어스가 없는 상황을 가정하고 주장하는 최영섭 선생의 주장은 가계동향조사를 패널로 분석해도 횡단면으로 분석할 때와 변화 방향이 일치할 것으로 예견할 때도 필요한 가정(=조건)임. 


그런데 표본자료에서 이 가정이 실제로 성립하는지, 아니면 뭔가 이 가정과 다른 에러가 있는건지 어떻게 앎? 불행히도 이 가정에 대한 직접적 검증은 불가능함. 통계 이론적으로 가정하는 것. 하지만 간접적 검증의 방법이 있음. 바로 전체 표본과 연속 표본의 결과에 상당한 차이가 나면 이 가정에 문제가 생겼다는 신호임. 바로 여기서 가계동향조사의 종단면 연속 샘플을 따로 떼어내서 혹시 에러는 없는건지 검증해볼 가능성이 생기는 것.  


정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. 






통계청에서 하는 어떤 조사도 일부러 편향된 표집을 하지는 않음. 최선을 다해 랜덤 샘플링을 하지만 그럼에도 불구하고 조사 방법이 바뀌면 뭔가 변화가 생기는 것. 표집오차일 수도 있고, 비표집오차일 수도 있음. 비표집오차의 예로  5,500개 샘플을 8,000개 샘플로 늘리면서 조사 품질 관리에 문제가 생길 수도 있음. 샘플수가 늘어나면 표집오차는 줄어들지만, 관리비용도 늘어나기 때문에 비표집오차는 증가함. 


가계동향조사는 작년과 올해 우여곡절을 겪었고, 표본 구성이 달라짐. 가구 추계도 2010년 베이스에서 2015년 베이스로 바뀌면서 변화의 정도도 커짐. 이렇게 변화가 있을 때 가계동향조사의 <횡단면 조사 + 종단면 조사> 설계는 변화된 표집으로 시계열적 비교의 안정성이 확보되는지 확인할 수 있는 중요한 수단을 제공함. 


위에서 설명했듯 표본 변화가 전체 추세에 영향을 끼치지 않았다면, 전체 표본의 시계열 변화와 연속 표본의 시계열 변화가 질적으로 동일한 결과가 나와야 함. 


그런데 이우진 교수가 검증해보니 연속 표본의 결과가 전체 표본과 상당히 다르게 나온 것. 그래서 내릴 수 있는 결론은 연속 표본의 결과가 맞다가 아니라, 전체 표본을 이용한 시계열 비교를 신뢰할 수 없다는 것임. 아래 그래프에서 보듯 평균값도 이상하게 튐. 


그러니 횡단면 조사의 표본 설계를 어떻게 하는지 모르고 연속 표본의 사이즈로 가계동향조사의 시계열 비교가 가능한 것으로 제가 오해하고 있다는 최영섭 선생의 비판은, 최영섭 선생이 <횡단면 조사 + 종단면 조사>이루어진 횡단면 조사 표본 설계의 원리를 잘 모르고 한 비판일 가능성이 농후함. 





Ps. 참고로 아래 올린 패널 콘디셔닝은 연속 표본과 전체 표본에 차이가 날 수 있는 한가지 잠재적 메카니즘에 대한 글임. 지금 쓴 이 포스팅 내용을 배경 지식으로 가지고 있어야 제대로 이해할 수 있는 얘기임. 


Pps. 최영섭 선생의 비판 중 첫번째 포인트인 면접식 도입이 2017년이라는 지적은 옳음. 다만 이 방식과 샘플 확대가 결합할 때 어떤 비표집오차를 일으킬지는 또 하나의 체크포인트. 


이런 가능성이 있음. 원래 기장식이던 가계동향조사에 2017년부터 면접식을 도입. 그런데 면접식은 기장식보다 면접원 통제라는 새로운 요소가 가미됨. 면접원에 따라 결과가 바뀌는 비표집오차의 가능성이 추가됨. 면접원의 품질 통제는 상당한 관리 비용이 들어감. 


그런데 2018년에 2017년에 비해 가계동향조사의 표본수가 크게 증가함. 이에 따라 면접원의 품질에 따른 비표집오차의 개입 개연성도 크게 증가됨. 즉, 비록 면접식의 도입은 2017년이지만, 이러한 면접 방식의 변화가 조사 결과에 더 크게 영향을 끼칠 가능성은 2018년일 수도 있다는 것 (꼭 그렇다는건 아님. 통계청에서 응답 방식에 대한 원자료를 제공하면 이것도 체크해볼 수 있음).  


그러니까 타당한 지적인 최영섭 선생의 첫번째 포인트도 2018년의 표본수 확대라는 문제까지 고려해서 좀 더 깊이 들어가면 그렇게 단순하게 조사방식 변경 효과는 무조건 2017년에 나타나야 한다고 주장할 수 있는게 아님. 

Posted by 바이커 sovidence

아래 그래프는 가계동향조사를 결과를 이용해 2003년 이후 분기별 하위 20%의 소득이 어떻게 변화했는지 보여주는 그래프. 


이 그래프를 그릴 수 있는 데이타의 소스는 요기


오른쪽의 붉은선이 2018년에 2017년 대비 어떻게 변화했는지임. 2017년 4분기에 150만원이던 하위 20%의 평균 소득이 2018년 1분기에 129만원으로 뚝 떨어짐. 이는 2012년 수준으로 잃어버린 6년이 벌어진 것. 


언론보도에서는 올해 1분기에 작년 동기 대비 1분위 소득이 8% 정도 낮아졌다고 하는데, 지난 분기 (즉, 2017년 4분기) 대비로 보면 하위 20%의 소득이 14% 대폭락한 것. 그래프를 보면 알겠지만 이런 일은 통계청에서 분위별 소득을 보고한 이후 한 번도 벌어진 적이 없음. 


폭락도 이런 폭락이 없는 대폭락임. 2008년 경제 위기 때도 이런 일은 없었음. 작년 말 올해 초에 경제 대위기가 있었던 거임? 


데이타가 튀어도 이렇게 너무 튀면 이 자료는 현실을 반영하는 것이 아니라 데이타의 문제일 가능성을 염두에 두고 체크해 봐야 함. 바로 지금 생난리를 치고 있는 가계동향조사임. 




여기서 데이타 이상일 경우 가능성은 3가지임. 


하나는 많은 사람들이 제기하듯이 2018년에 데이타 개편을 하면서 연속 비교가 어렵게 문제가 생겼다. 


다른 하나는 2015년 이후 1분위 소득이 지속하락 패턴을 보이는데, 가계동향조사를 폐지하기로 했던 2017년 데이타에서 이상하게 갑자기 하위 20% 소득이 우상향하는 것으로 바뀌었다. 즉, 2017년 데이타를 빼면 저소득층의 소득은 2015년 이후 지속 하락 패턴이다. 


마지막은 지금까지 했던 거의 모든 가계동향 데이타가 잘못된 것이고, 2018년에서야 뭔가 제대로 되었다. 


뭐가 되었든 2017년이나 2018년 둘 중 하나의 가계동향조사 데이타에 문제가 있는건 아닌지 확인해 봐야할 필요성이 큼. 




데이타 문제가 아니라는 사람들은 이게 다 최저임금 인상 때문이라고 주장할 것. 가능성을 배제할 수 없겠지만 경활조사와 핀트가 안맞고 최저임금 인상의 순효과를 측정하는 것은 가계동향조사 데이타의 문제점을 확인하는 것보다 훨씬 더 어려움.  


이런 결과를 볼 때, 정상적인 사회과학적, 통계적 마인드를 가진 사람이라면 데이타 이상 가능성을 체크하는게 당연하지 않음?  


청와대에서 경제팀이 데이타 이상 가능성 체크할려고 했더니 통계청에서 데이타 원자료 안줄려고 뻐팅기고 데이타는 아무 이상 없다고 보도자료내면 이상하지 않음? 





Ps. 이 그래프는 제가 그린 것이 아닙니다. 경제 시계열 연구하는 이 블로그 독자분이 저에게 보내준 것입니다. 감사합니다! 그래프가 맞는지는 위에 링크한 원소스를 찾아서 저도 확인해 보았습니다. 

Posted by 바이커 sovidence

아래 어떤 분이 다음과 같은 답글을 달았음: 


"‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까."


연속 샘플을 이용한 이우진 교수의 결과와 전체 샘플을 이용한 통계청의 결과가 다른 이유는 소득이 오르고 기분이 좋은 사람만 계속 가계동향조사에 응하고 그렇지 않은 사람은 표본에서 탈락하기 때문이라는 것. 충분히 의심해 볼만 지적이고, 제 글에 문제가 있다고 비판하는 전문가 분들도 아마 이 점을 염두에 두고 있을 것으로 추정됨. 


논의가 논의이다 보니 어쩔 수 없이 자꾸 전문 용어 쓰게 되는데, 이렇게 패널조사에서 계속 남는 사람들은 탈락한 사람과 달리 살람살이가 좋아졌다던가 등의 뭔가 편향이 있다는걸 panel conditioning bias라고 함. 


그런데 이 논리에는 두가지 생각해볼 점이 있음. 


예를 들어 전체 인구로 보면 소득이 10% 줄었는데, 소득이 10% 오른 사람은 패널에 남았다고 가정해 보자. 이 경우 연속 패널이 2/3이고, 신규 패널이 1/3이면, 


(A) 전체 소득 증가율 = 0.10*2/3 + (-0.10)*1/3 = +0.033


소득이 3.3% 오른걸로 나옴. 


하지만 다른 모든 조건은 동일한데 연속 패널이 1/3이고, 신규 패널이 2/3로 패널 구성만 바꾸면, 즉 전체 인구로보면 소득이 10% 줄어든 상황은 동일한데, 패널의 구성만 바뀌었다고 치면, 


(B) 전체 소득 증가율 = 0.10*1/3 + (-0.10)*2/3 = -0.033


소득이 3.3% 줄어든걸로 바뀜. 


(A)나 (B)나 실제 변화를 정확히 반영하지 못하는 것은 마찬가지지만, 패널 구성에 변화만 없다면 시계열적 변화로 변화의 방향을 판단할 수는 있음. 하지만 패널 구성이 변화하게 되면 실제 변화와 패널 구성 변화가 혼재되어 버림. 


제 글에 가중치 문제 제기하는 분들이 많은데, 패널 콘디셔닝이 있을 때 신규패널과 연속패널의 구성을 바꾸면 가중치를 완전히 바꾸는 효과가 있음. 이 경우 패널 구성의 큰 변화가 있을 때 시계열적 변화는 의미가 없어짐. 


따라서 이우진 교수의 연속 샘플에서 저소득층의 소득이 올라간 것으로 나온 결과는 가계동향조사의 연속샘플의 어떤 선택 편향이 있는걸 고려하지 않아서 나타난 잘못된 결과라고 주장하는 사람들도 이우진 교수의 결론인 올해의 가계동향조사의 연도별 비교는 의미가 없다라는 주장에는 동의해야 정상임. 그런데 이 분들은 패널 콘디셔닝 문제를 암시하면서 이우진 교수가 틀렸고, 통계청의 기존 발표에 문제가 없다는 식으로 주장하고 있음. 





만약 연속 샘플과 전체 샘플에 차이가 없다면 이런 문제는 없음. 그 때문에 이우진 교수는 연속 샘플과 전체 샘플의 격차를 검증해 본 것. 이 논리를 모르고 연속 샘플과 전체 샘플은 다르다는, 통계를 제대로 이해하는 사람들 끼리 보면 기초적 지식에 해당하는 주장만 되뇌이면 곤란. 


또한 이우진 교수가 가중치를 제대로 적용하지 않았을 수도 있음. 이건 이우진 교수가 답해야 할 것. 헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임. 





다음으로 2017년과 올해 사이에 panel conditioning bias가 특이하게 컸다고 생각할 수도 있는데, 이 경우 2017년 가계동향조사의 샘플의 저소득층  attrition rate이 다른 해보다 유난히 컸어야 함. 이는 가계동향조사 샘플의 attrition에 정보를 모두 가지고 있는 통계청에서 바로 확인 가능함. 




어떤 경우가 맞는건지, 패널에 대한 변수가 제대로 있어야 검증할 수 있는데, 통계청에서는 일반 공개 원자료에서 이러한 bias를 알 수 있는 정보를 전혀 제공하지 않음. 


통계청에서 학자들이 가중치를 제대로 안줄까봐 원자료 제공을 꺼린다는데, 원자료를 공개하고 다수 학자들이 이를 쓰게하면 그 전에는 몰랐던 새로운 사실과 문제점을 알게되고, 이런 문제점을 개선하다보면 통계의 품질이 올라감. 한국에서 통계 품질 개선이 더딘 이유 중의 하나가 원자료를 공개하지 않아서 문제가 어디에 있는지 제대로 파악하지 못하는 것임. 


뭐 그래서 저의 결론은 항상 동일. 변수를 숨기지 말고 원자료를 공개합시다~

Posted by 바이커 sovidence