제가 어찌알겠습니까. 그냥 감상이나 적는거지. 




이 블로그에서 언급한 적은 없지만, 김정일이 사망하기 전, 김정일 사망 후 북한은 큰 혼란에 싸일 것으로 예상했었음. 근대 이후 3대 세습에 성공한 절대 권력 국가 있음? 북한이 조만간 망하는지 일단 지켜보자는 보수 측의 입장에 상당한 타당성이 있다고 생각했음. 안망하면 이상하다고 생각. 


결과는 모두가 알다시피 이 입장은 완전히 틀린 것으로 판명났음. 역시 외교나 대북관계는 나 같은 아마츄어가 쉽게 판단할 수 있는 영역이 아니라는 것을 이 때 확실히 깨달았음. 


국가 관계는 N이 작고 사례의 특수성이 지배하는 영역이라 "평균으로의 회귀" 법칙을 믿고 사는 나 같은 사람이 과거의 경험칙으로 판단하는데 한계가 큰 분야라는 생각이 듦. 그래서 외교에 대해서 언급할 때는 문외한의 감상이라는 조건을 항상 달아왔음. 


이 번 미북 회담을 지켜보면서 느낀 것은 역시 외교는 어렵다는 것. 자기가 뭔가 안다고 떠들던 많은 사람들이 이 번 회담의 진행 과정에서 전혀 도움이 안되는 소리만 남발. 


이 번에 북미 확대 정상회담에 참석했고, 트럼프와 백악관에서 투샷으로 악수했던 김영철이 올 초에 한국에 올 때 쌀자루 깔고 앉았던 자유한국당 의원들은 뭐 남들보다 무식해서 그랬겠음? 아님 자기들 전문가의 조언을 못받아 그랬겠음? 

 

대북관계 분석틀이 완전히 틀렸는데 뭐가 잘못되었는지 감도 못잡으니까 저러는거지. 


트럼프-김정은 회담이 결국은 열리지 않을 것으로 예상했던 분들도 이제 깊숙히 버로우타야할텐데, 당연히 안그러겠지. 






여러 평가가 있지만, 이 번 트럼프-김정은 외교쇼의 최대 수혜자는 김정은과 북한으로 보임.  


김정은은 국제 무대에 성공적인 데뷔를 했고, 오랜 적대관계없던 미국과 동등한 지위에서 협상을 했고, 한국과의 관계를 극적으로 개선하고, 한국 내에서 우호적인 이미지를 창출했으며, 중국 시진핑과도 두 차례 만나는 등 중국이 북한에 더 많은 외교 경제적 지원을 할 수 밖에 없게 만들었음. 미국 대통령이 한미 군사훈련을 중단하겠다고 발언한 것은 많은 사람이 기대하지 않았던 김정은의 큰 성과. 


그러면서도 직접적으로 내 준 것은 많지 않음. 


그런데 이렇게 일방적으로 김정은이 이기는 게임이라는게 도리어 이상하다는 생각. 


미국측 협상 당사자가 바보도 아니고, 북한만 챙기고 미국은 내주기만하는 그런 협상이 세상에 어디에 있음? 


많은 사람들이 지적하듯 북한이 내줄 것은 현물이고, 미국이 내줄 것은 립서비스임. 북한은 일단 내주면 되돌리기 어렵거나 적어도 되돌리는데 시간이 많이 걸리는 것들이고, 미국이 내줄 것은 상대적으로 쉽게 뒤집을 수 있는 것들임. 립서비스는 북한에 유리해보여야 정상. 


트럼프-김정은 협상에서 북한의 김정은이 트럼프에게 내주기로 약속한 것이 무엇인지는 곧 드러날 것으로 생각함. 회담의 성공 여부에 대한 평가는 그 때서야 제대로 이루어질 것. 북한의 쇼는 11월 미국 중간선거에 임팩트가 큰 10월경이 아닐까라는 의심마져 듦. 


일선 외교관의 조정없이 곧바로 정상외교로 직행한 것이 모험이기는 하나, 지금까지는 충분히 감행할 만했던 모험으로 보임. 정상들의 직접적인 개입이 없었다면 여기까지 오지도 못하고 엎어졌을 것. 


과거 북핵협상과 달리 외교의 정점이라는 정상외교가 남북한, 북미, 북중 사이에 이루어졌고, 러시아, 일본도 정상외교 판에 들어오고 싶어하는 것이 확실해 보임. 


나같은 문외한의 눈에는 대북관계가 과거와는 확실히 다른 새로운 챕터에 들어선 듯 보임. 





Ps. 

과거와 다를 바 없다는 전문가 분들과 과거와는 다르다는 분들의 견해를 비교해서 누가 옳았는지 나중에 비교해 보면 재미있을 듯. 


내가 기자라면 북핵 관련 전문가 전망과 실제 결과를 비교, 적중률을 계산해서 보여줄 것. 이렇게 쪼는 맛이 있어야 보는 맛이 있지. 


Pps. 

선거가 바로 이 쪼는 맛이 있어서 재미짐. 

Posted by 바이커 sovidence

SBS 기사: 마계인천, 이부망천


자유한국당 정태옥 의원이 YTN 뉴스 패널로 나와서 했다는 발언이다. "목동 살던 사람이 이혼하면 부천, 망하면 인천"이라고. 


여론의 십자포화를 맞고 대변인직 사퇴하고 자한당에서 수습하느라 정신이 없는 모양. 본인은 자한당 탈당까지. 정치인으로써 할 소리는 아니지만, 이 말이 지역발전 평가의 측면에서 어떤 진실을 담고 있는지는 살펴볼 필요가 있다고 생각함.  


 



정태옥 의원의 발언을 직접 검증할 수는 없지만, 2015년 인구총조사를 이용하면 2010년 대비 인구 이동을 패턴과 지역이동자의 특징을 볼 수 있음. 


우선 2015년 현재 거주자의 지역별 학력은 다음과 같음. 인천 지역이 서울이나 경기 지역보다 학력이 낮고, 전국 평균보다도 낮음. 인천에 대한 부정적 이미지가 높은 이유 중 하나가 공업지대였고, 타 지역에 비해 학력 수준이 낮기 때문. 


표 1. 현거주자의 학력, 25-59세

 

 서울

인천 

 경기

 전국

 대졸이상

 47.1%

27.1% 

35.4% 

33.6% 

 대학원

 8.6%

3.3% 

5.5% 

5.1% 


그런데 정태옥 의원 발언과 관련해서 중요한 것은 인천 지속 거주자가 아니라 인천 유입 인구의 학력 수준. 


아래 표2는 5년 전 거주지 대비 각 지역으로의 신규 유입자의 학력 수준임. 


보다시피 서울 경기 대비 인천 지역 유입자의 학력 수준이 낮음. 하지만 지난 5년 간 인천 지속 거주자 대비 신규 유입자의 학력 수준은 높음. 인천 지속 거주자 중 대졸이상 학력자는 24.8%에 불과함. 이들 대비 신규 유입자는 42.0%가 대졸 이상 학력으로 인천은 신규 유입으로 전체 학력 평균이 높아지고 있음. 


현 인구 대비 유입자의 대졸 이상 학력자 비중은 서울이 1.30 (=61.2%/47.1%), 경기가 1.42지만, 인천은 1.55에 달함. 


서울이나 다른 경기 지역 대비 인천 신규 유입 인구의 학력이 낮기는 하지만, 인구 유출입으로 인한 학력 고도화 속도가 인천이 다른 수도권보다 상대적으로 빠름. 



표 2. 5년 전 거주지 대비 각 지역 신규 유입자의 학력, 25-59세

 

 서울

인천 

경기 

전국 

 대졸이상

 61.2%

42.0% 

50.4% 

48.3% 

 대학원

 9.8%

5.4% 

8.5% 

8.0% 

* 인천의 경우 송도가 속한 연수구 제외시 대졸 이상은 39.6%, 대학원은 4.3%. 




신규 유입 인구는 그렇고, 어떤 인구가 각 지역에서 다른 지역으로 빠져나가는 것일까? 아래 표3는 각 지역에서 다른 지역으로 유출된 인구의 학력 수준임. 


모든 지역에서 현거주자의 학력보다 유출자의 학력이 더 높음. 앞의 표와 마찬가지로 이는 학력이 높은 인구가 지역 이동이 가능성이 높기 때문. 


표2와 3을 종합해보면 서울은 비록 인구 유출이 심하지만, 신규 유입 인구의 학력이 유출인구보다 확실히 높은데 반해, 인천과 경기는 유입, 유출 인구의 학력 수준이 비슷함. 


표 3. 5년 전 대비 각 지역 유출자의 학력, 25-59세

 

 서울

인천 

경기 

전국 

 대졸이상

 51.9%

39.7% 

47.8% 

48.3% 

 대학원

 9.3%

5.8% 

8.5% 

8.0% 





수도권 내에서 비교하자면, 인천은 2010-2015년 사이에 서울과 경기 모두로부터 유출인구보다 유입인구가 더 많은 순유입을 경험하였음.  


그런데 경기도에서 인천으로 오는 인구는 36.1%가 대졸 이상 학력자인데, 인천에서 경기도로 빠져나가는 인구는 41.2%가 대졸 이상 학력자임. 서울에서 인천으로 오는 인구는 46.4%가 대졸 학력자인데, 인천에서 서울로 이동하는 인구는 54.3%가 대졸 학력자임. 


유입유출자의 프로파일로 보면 인천은 서울, 경기 대비 상대적으로 고학력자를 잃고 있음. 하지만 중요한 건, 절대수임. 서울 경기에서 인천으로 오는 절대수가 인천에서 서울 경기도로 빠져나가는 수 보다 많기 때문에 인천 입장에서는 남는 장사임. (인천 -> 서울) 인구 대비 (서울 -> 인천) 인구가 2.2배 많고, (인천 -> 경기) 인구 대비 (경기 -> 인천) 인구가 1.2배 많음. 인천 입장에서 서울로 고학력자 1명이 떠날 때 2명이 들어오는 격이고, 경기 대비는 거의 1대 1로 교환하고 있음. 





그래서 결론은?


겨우 학력 하나 보고 결론을 내릴 수는 없지만, 학력 측면에서 망천가설의 증거는 발견되지 않음. 수도권 내 인구이동으로 인천이 소외되는 것이 아니라, 비록 느리긴 하지만 수도권 지역 간 학력 격차가 줄어드는 방향으로 움직이는 중. 





Ps. 


지역별 이주자의 이혼율도 파악할 수는 있는데, 이런 통계는 건전한 논쟁에 전혀 도움이 되지 않을 것으로 생각됨. 

Posted by 바이커 sovidence

이 번 포스팅이 비즈조선 기사에 대한 마지막 분석 포스팅이다. 이 번 글이 내가 비즈조선 기사를 보면서 가장 크게 의문을 품었던 점에 대한 포스팅이다. 



 


아래 두 개의 포스팅(요기, 요기)에서 비즈조선에 실린 조귀동 기자의 2018년 1분기 소득이 늘어난 가구는 27.6% 뿐이라는 기사의 오류 중 하나가 가중치일 것으로 추정하였다. 


하지만 가중치 오류로 설명할려고 해도 풀리지 않는 의문이 있는데, 조선일보 기사의 다음 문장이다. 


가계 총소득이 아닌 가계 근로소득을 기준으로 비교했을 때도 결과는 비슷했다. 근로소득 상위 28.1%에 속한 가구들의 소득만 늘었다. 나머지 71.9%의 가구들의 근로소득은 뒷걸음질쳤다. 근로자인 가구주만 비교해도 마찬가지였다. 상위 23.0%만 급여가 늘고 나머지 77.0%는 줄었다. 


나는 아무리 가중치를 빼고 돌려도 이 숫자 비슷하게도 안나온다. 가계 근로소득을 기준으로 비교했을 때 나의 percentile rank 분석에서는 가중치를 빼도 50% 정도 가구에서 근로소득이 증가한다 (가중치를 주면 근로소득이 늘어난 가구 비중은 80%가 넘는다). 가구주의 근로소득만으로 분석하면 95%가 넘는 가구에서 percentile rank로 봤을 때 근로소득이 증가하는 것으로 나온다. 가중치를 빼고 계산했을 때 그렇다. 


71.9% 가구의 근로소득이 줄고, 77.0% 노동자 가구주의 근로소득의 줄었다는 조선비즈의 분석을 통계 프로그램을 이용해서 아무리 이것저것 해봐도 도대체가 재현할 수 없었다. 이건 가중치 문제가 아니다. 


사회과학계에서 툭하면 튀어나오는 재현의 위기. replication이 안되는 문제다. 






그래서 무지막지한 방법을 써보기로 했다. 


비즈조선 기사에서 기술한 방법론은 다음과 같다. 


이번 조사에선 올해 1분기 가계 소득과 지난해 1분기 가계 소득을 가구별 순위로 정렬해 같은 순위별로 소득 증감을 비교했다. 다만 표본 숫자가 다르기 때문에 2018년 표본(6115가구)을 소득 순위별로 정렬한 뒤 같은 간격(처음에는 3의 배수, 두 번째는 20의 배수가 순위인 표본)으로 일부를 삭제해 표본수를 맞췄다. 2017년 4145가구와 2018년 4189가구를 비교했다.


조선을 따라하기 위해 다음과 같은 과정으로 샘플을 추출하였다.  


우선 2018년 표본은 6115일 수가 없다. 6115에서 매 세번째 표본을 배제하면 남는 표본수는 4076개 밖에 안된다. 내가 통계청 MDIS에서 내려받은 2018년 가계동향조사 샘플은 6,610개인데, 여기서 총소득(변수 c100)에 따라 sorting 한 후 매 세 번째를 배제하고, 다시 매 20번째를 배제하면 4187개의 가구가 남는다. 조선의 4189개 표본과 2개 차로 줄어든다. 2017년 표본은 1분기만 남기면 조선의 기술대로 정확히 4145가구다. 





다음으로 설마 조선에서 이렇게 무식하게 하지는 않았을 것이라는 강한 믿음이 있지만, 그래도 몰라서 다음과 같은 과정을 거쳐 보았다. 


1. 위에 기술한 임의로 추출된 2018년 가계동향조사 자료를 엑셀에 붙이고 2017년 자료도 가구총소득(변수 c100)에 따라 sorting한 후 엑셀에 붙였다. 


2. 비록 두 기간의 표본수가 안맞지만 걍 무시하고 sorting된 순서에 따라 가구별 2018년과 2017년 소득 격차를 계산하였다. 2018년 샘플은 4187개로 2017년 샘플 4145개와 매치되지 않는 샘플이 42개 있지만 걍 무시하였다. 


이렇게 임의로 일부 데이타를 무시하면 2018년 percentile rank별로 소득 평균과 소득 threshold를 과소 내지는 과대 평가하는 편향이 생긴다. 어떤 사회과학자도 이렇게 황당하게 하지 않지만 일단 이렇게 해보기로 했다. 


3. 그리고 그래프를 그렸다. 조선의 기술대로 상위 1%는 그래프에서 제외하였다. 그랬더니 다음과 같은 그래프가 그려진다. 




실제 조선일보에 실린 그래프는 아래와 같다. 위에 내가 그린 그래프는 아래 그래프에서 주황색선을 재현한 것이다. 보다시피 이보다 더 정확하게 재현하기도 어렵다. 


이 무식한 방법으로 비즈 조선의 그래프가 정확히 재현된다. 








4. 조선에서는 27.6%의 가구에서 총소득이 줄었다고 했다. 위의 무지막지한 방법으로 두 개 연도의 소득 격차에서 마이너스를 기록한 가구의 비중을 계산해 보니 71.1%다. 28.9%에서 소득이 늘었다. 27.6%에서만 소득이 늘었다는 조선의 분석과는 1.3%포인트 다르다. 작은 격차지만 조선의 분석이 그대로 재현되지는 않는다. 


그런데 위 그래프에서 보면 소득 최하층인 오른쪽 끝부분에서 소득이 증가한 것으로 나온다. 이 부분을 무시하고 소득 변화를 눈대중으로 살펴보니 sorting된 데이타에서 1,147번째 표본부터 그 밑으로 본격적으로 두 해의 소득 격차가 마이너스로 바뀌었다. 다시 말해 1,146가구는 소득이 포지티브라는 얘기다. 


1146/4145 = 27.6% 조선의 분석과 소숫점 첫째자리까지 정확히 일치한다. 위 조선일보 그래프에서 소득 변화가 0 이상인 왼쪽 그래프의 비율만을 소득 증가 가구로 보면 조선의 기술과 일치한다. 오른쪽 끝의 변화는 그냥 퉁칠 경우에 그렇다. 


이 말도 안되는 방법으로 전체 소득 증감에 대한 조선의 분석을 정확히 재현했다. 






5. 다음으로 더 큰 의문인 "근로소득(변수 C102)"으로 넘어가보자. 앞서도 얘기했지만 나는 가중치를 넣든 빼든 정상적인 방법으로 70%가 넘는 가구의 근로소득이 줄었다는 결과를 얻기 어려웠다. 


그래서 다음과 같이 해봤다. 


위에서 추출한 2018년 4187개, 2017년 4145개 표본을 그대로 사용하지만, 엑셀에서 가구근로소득인 C102 변수를 이용해 각 연도별로 새로 sorting한다. 그리고 Control + C & Control + V 하여, 새로운 excel sheet에 나란히 붙였다. 


2017년에 근로소득이 0 이상인 가구는 2,737가구이고, 2018년은 2,627가구에 불과해서 도저히 직접 비교할 수 없지만 역시 걍 무시하였다.  


6. 이렇게 매칭한 데이타로 2017년, 2018년 근로소득 격차를 계산하였다. 정상적인 방법론적 사고로는 두 해의 데이타를 절대 1대 1로 비교해서는 안되지만 두 눈 질끈감고 해보았다.


그랬더니 소득이 네거티브인 가구수가 1,967다. 2017년 소득이 0 이상인 가구(2737가구)를 기준으로 계산하면 다음의 가구에서 소득이 줄었다. 


1967/2737 = 71.9%. 


71.9%의 가구에서 근로소득이 줄고, 28.1%의 가구에서 근로소득이 늘었다. 


이 황당하기 그지없는 방법으로 비즈조선의 보도와 소숫점 첫째자리까지 정확히 일치하게 재현된다. 







7. 그럼 다음은 노동자 가구주의 근로소득에 대해서 계산할 차례인데, 내가 이게 뭐하는 짓인가라는 자괴감이 급격히 몰려온다. 


그만두자. 






한가지 분명히 짚어둘 것은 여기서 기술한 황당한 방법이 비즈조선 조귀동 기자가 쓴 방법이라는 주장은 절대 아니다. 이렇게 무식한 방법으로 한국의 일등신문이 국가 정책에 시비를 걸지는 않았을 것이다. 분명 뭔가 다른 방법을 썼을 것이다.  


글자체를 굵게해서 강조하는 것도 모자라 다시 한 번 말하지만 여기서 기술한 방법이 조선일보에서 쓴 구체적인 방법이라는 주장은 절대 아니다. 






하지만 내가 분명히 말할 수 있는 것은 사회과학자들이 쓰는 정상적인 방법으로 비즈 조선의 숫자가 재현되지 않았는데, 말도 안되게 무지막지하고 사회과학자는 도저히 용납할 수 없는, 이렇게 분석했다가는 F 학점을 면할 수 없는 방법을 썼더니 조선일보의 숫자가 재현되더라는 것이다. 


조선일보, 도대체 어떻게 분석한 것인가???


조선일보의 이 번 기사는 단순한 오류가 아니라 국가 정책과 관련된 큰 논쟁을 일으킨 문제적 기사다. 정상적인 사회과학적 방법으로 재현이 안되면 어떻게 분석했는지 밝히는 것이 도리다. 


도대체 어떻게 분석한 것인가???

Posted by 바이커 sovidence

작년 불평등학회에서 가중치에 대한 특강을 한 적이 있다. 하기는 했는데, 어떤 부분을 강조하고 설명해야할지 잘 몰랐다. 


강의 끝나고 Q&A 시간에 질문을 받고서야 내 강의가 잘못되었다는 것을 깨달았다. 강의를 하면서 가중치가 계수 측정에 끼치는 효과는 모두 이해하고 있다고 가정하고, 몇 가지 가중치 부여법에 따라 표준오차 측정이 어떻게 달라지는지만 잔뜩 설명했다. 질문을 받고 보니 가중치가 계수 측정에 끼치는 영향부터 설명했어야 했다. 


조선비즈 조귀동 기자의 분석이 잘못된 이유 중 하나는 가중치에 대한 이해의 부족 때문이다. 본인은 그거 전부 안다고 주장하는 것 같은데, 아는 분이 왜 그렇게 했는지... 


이 기회에 작년에 잘하지 못한 특강을 만회키 위해 가중치를 잘못주면 어떻게 망하는지 쉬운 예를 들어 설명하고자 한다. 


아래 표1이 두 기간 (Time 0, Time 1) 동안의 소득 샘플과 가중치라고 치자. 두 기간 동안 소득 분포에는 전혀 변화가 없는데, Time 0에서는 고소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. Time 1에서는 저소득층 복지 정책을 보다 정확히 실행하기 위해 최저소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. 


두 기간 동안 소득 분포에 아무런 변화가 없지만 샘플링에만 변화가 있었다는 것. 이 경우 가중치는 아래와 같이 time 0에서는 고소득층에 낮은 가중치를 time 1에서는 저소득층에 낮은 가중치를 준다. 가중치를 주어서 평균을 계산하면 두 기간의 평균과 분포가 모두 똑같아 진다. 



표 1. 소득 샘플과 가중치

rank

T0 - 소득

가중치

T1 - 소득

가중치

1 10 1.0 10 0.5
2 20 1.0 10 0.5
3 30 1.0 20 1.0
4 40 1.0 30 1.0
5 50 1.0 40 1.0
6 60 1.0 50 1.0
7 70 1.0 60 1.0
8 80 1.0 70 1.0
9 90 1.0 80 1.0
10 100 0.5 90 1.0
11 100 0.5 100 1.0



위의 경우에 가중치를 주어서 다시 계산하면 소득 분포가 아래 표 2와 같이 된다. 보다시피 두 기간 동안 소득이 줄어든 계층은 아무도 없다. 당연하지 않은가. 두 기간 동안 소득 분포에 변화가 없이 고소득층과 저소득층의 over-sampling 방법만 바꾸었으니까. 



표 2. 가중치를 주어서 조정한 샘플로 소득 변화를 측정한 경우 

rank

T0 - 소득

T1 - 소득

T1-T0 격차

1 10 10 0
2 20 20 0
3 30 30 0
4 40 40 0
5 50 50 0
6 60 60 0
7 70 70 0
8 80 80 0
9 90 90 0
10 100 100 0




그런데 위 표1에서 가중치를 조정하지 않고 percentile rank를 계산하면 아래 표3과 같은 결과가 나온다. 두 기간 동안 소득이 줄어든 비율이 8/11, 즉 73%가 나오게 된다. 소득 분포에 아무런 변화가 없음에도 가중치를 이해하지 못하면 73% 국민의 소득이 줄어들었다는 놀라운 결과가 나오게 된다.   



표 3. 가중치 없이 소득 변화를 측정한 경우 

rank

T0 - 소득

T1 - 소득

T1-T0 격차

1 10 10 0
2 20 10 -10
3 30 20 -10
4 40 30 -10
5 50 40 -10
6 60 50 -10
7 70 60 -10
8 80 70 -10
9 90 80 -10
10 100 90 -10
11 100 100 0



실제로 가계동향조사는 2018년에 표본수를 늘리면서 소득이 낮은 노인가구를 확대하는 쪽으로 샘플링이 개편되었다고 알려져 있다. 가중치를 제대로 적용하지 않으면 위에서 예를 든 것과 같은 효과가 나타나게끔 되어 있다. 


다른 통계보다 특히 percentile rank 는 가중치 부여 여부에 민감하다. 소득 최하층이나 고소득층이 over-sampling되는데 가중치를 제대로 부여하지 않으면 전체 percentile rank 가 엉망으로 되어버린다. 





이 문제에 대해서 좀 더 심각했던 논쟁은 요즘 사회과학계의 신성 Chetty 등이 사용하는 소득 rank order에 대해서 Yu Xie 교수가 제기한 문제다. 소득 측정에 error가 있는데 한 응답자의 소득이 잘못측정될 경우 rank order로 측정하면 최소 2명 응답자의 rank order에 오류가 발생한다는 것이다. 최소 2명이고, 측정오차가 크면 rank order는 더 크게 영향을 받는다. 즉, rank order는 측정오차에 대해 민감하기 때문에 Chetty 등의 방법론은 측정 오차에 더 민감해서 reliability가 떨어진다는 비판이다.  


미국 서베이로는 SIPP이 복지 혜택을 받는 저소득층이 over-sampling 되어 있다. 가중치를 주지 않으면 소득이 낮게 추정된다. 또 다른 예로 대졸자 서베이인 NSCG는 아시안이 over-sampling 되어 있다. 아시안의 과학기술편중이 심하고 이들의 소득이 높기 때문에 가중치를 주지 않으면 결과가 엉망이 된다. 

Posted by 바이커 sovidence

비즈조선: 1분기 소득 늘어난 가구는 27.6%뿐. 근로소득도 71.9%가 소득 줄어


문통의 주장을 조선에서 크게 반박했다길래 읽어봤는데, 기사에서 기술한 방법론이 이해가 가지 않았다. 


조선일보의 방법론: 이번 조사에선 올해 1분기 가계 소득과 지난해 1분기 가계 소득을 가구별 순위로 정렬해 같은 순위별로 소득 증감을 비교했다. 다만 표본 숫자가 다르기 때문에 2018년 표본(6115가구)을 소득 순위별로 정렬한 뒤 같은 간격(처음에는 3의 배수, 두 번째는 20의 배수가 순위인 표본)으로 일부를 삭제해 표본수를 맞췄다. 2017년 4145가구와 2018년 4189가구를 비교했다. 


아무도 소득 원자료를 이렇게 분석하지 않는다. 


2017년과 2018년의 조사 표본이 다를 때 정상적인 사회과학자라면 당연히 (1) 각 연도의 percentile rank를 구하고 (2) percentile points의 소득이나 각 percentile block의 평균소득을 비교할 것이다. 이 때 (3) 각 연도의 데이타는 표집 확률의 inverse 값으로 적절한 가중치를 주어야 한다. 


조선일보에서 기술한 방법론은 주먹구구식이다. 조선에서 기술하듯이 표본수를 맞춰서 분석했다면 적절한 가중치를 부여하지 않았을 개연성이 크다. 2017년과 2018년에 표본수가 바뀌었기에 가중치에 상당한 변화가 있을 수 있다. 가중치를 제대로 적용하지 않으면 분석이 편향된다. 





그래서 2017년, 2018년 가계동향조사 원자료를 직접 분석해 봤다. 가계동향조사 원자료는 통계청 MDIS 웹사이트에서 다운로드 받을 수 있다. 


그랬더니 조선의 분석은 이상해 보인다. 


우선 조선의 분석과 비교적 일치하는 부분. 전체 가구 중 소득이 줄어든 비중이 67%에 달한다. 조선의 73%와는 다소 차이가 있지만 대다수의 가구에서 총소득이 줄어든 것은 맞다. 


그런데 노동소득이 0 이상인 가구를 대상으로 노동소득만으로 분석하면 소득이 줄어든 가구는 하위 5~15%tile 사이의 가구와 소득 45~50%tile 사이의 가구들이다. 퍼센타일로 나누었을 때 소득이 줄어든 비중은 전체 가구의 15%를 넘지 않는다. 72% 가구의 노동소득이 줄었다는 조선의 분석과는 큰 괴리가 있다. 


노동소득이 있는 가구의 비율도 2017년 1분기 32.1%에서 2018년 1분기 33.2%로 1%포인트 정도 늘었다. 최저임금이 일자리를 줄이면 노동소득이 있는 가구가 줄어야 하는데, 그런 효과가 보이지 않는다. 


노동소득만으로 분석하면 자영업자들이 빠져서 부당하다고 주장할 것이다. 그래서 노동소득과 자영업자들의 사업소득을 합쳐서 노동과 사업으로 벌어들인 돈(=earnings)으로도 분석해 보았다. 그랬더니 2017년 1분기 대비 2018년 1분기에 소득이 줄어든 집단은 하위 5%~13%사이로 노동소득만으로 분석할 때 보다 소득이 줄어든 비중이 더 줄어든다.   


즉, 70%에 이르는 가구에서 노동소득이나 사업소득이 줄어든 것이 아니라 90% 이상의 절대 다수의 가구에서 노동소득과 사업소득을 합친 경제활동 소득이 늘었다. 90%의 노동자의 소득이 늘었다는 문통의 발언과 일치한다. 


조선의 분석과는 완전히 다른 결과다. 





그렇다면 왜 2/3 가구의 총소득이 줄었을까? 


다수 가구에서 총소득이 줄어든 가장 큰 이유는 노동소득이나 사업소득의 감소 때문이 아니라 보험금, 퇴직금, 경조사비 등의 비경상소득 감소 때문이다. 2017년 1분기에는 전체 가구의 비경상소득 평균이 17.5만원에 달했는데, 2018년 1분기에는 비경상소득 평균이 3.8만원, 1/5로 줄었다. 


왜 비경상소득이 이렇게 줄었는지는 잘 모르겠다. 2017년에 가계동향조사의 방법이 바뀌었는데 새로운 방법을 론칭하면서 뭔가 콘트롤이 제대로 안되었을 수 있다. 조사방법론이 바뀔 때 몇 개 항목의 자료가 튀는 일은 비일비재하다. 


2014~2015년에는 비경상소득이 있는 가구가 전체 가구의 15% 정도 밖에 안되었는데, 2017년 1분기 에는 50%가 넘는 가구가 비경상소득이 있다. 2017년 1분기에 이상하게 많은 가구가 비경상소득이 있었다. 2018년 1분기에는 비경상소득이 있는 가구는 15% 내외로 정상적인 범위로 줄었는데, 비경상소득의 액수는 과거보다 크게 줄었다. 데이타가 불안정하다. 


2018년에 가구 소득이 줄어든 가구가 늘어난 두 번째 이유는 가구당 가구원수가 줄었기 때문이다. 2017년에는 가구당 평균 2.54명이었는데, 2018년에는 2.48명이다. 가구원수가 줄었기 때문에 가구당 평균 소득이 다소 줄어든다. 


가구원수 효과를 조정하면 2018년에 전체 소득이 줄어든 가구는 60%로 줄어든다. 소득이 줄어든 가구 늘어난 것 중 7%포인트 정도는 가구수 효과다. 


한가지 유념할 것은 가구소득과 가구원수는 정의 상관관계를 가진다는 것이다. 소득 하위 20%의 가구원수는 2018년 현재 평균 1.35명이지만, 소득 상위 20%의 가구원수는 평균 3.34명이다. 가구원수가 많은 가구는 같은 돈을 여러 명이 나눠쓰기에 소득이 높은 만큼 생활수준이 높은 것이 아니다. 이 때문에 불평등 지니계수는 가구소득이 아닌 가구원수 효과를 조정한 균등화소득을 쓴다.  






조선은 왜 틀렸는가? 


가장 큰 이유는 가중치 적용을 안했기 때문으로 보인다. 2017년에 가계동향조사 조사방법을 바꾸면서 2017년과 2018년의 샘플사이즈가 상당히 바뀌었다. 2018년에 샘플사이즈가 늘었는데, 샘플사이즈 증가가 소득계층에 상관없이 랜덤하게 늘었으면 가중치를 주지 않아도 두 개 연도의 상대적 비교에 문제가 없지만, 2018년에 늘어난 샘플이 저소득층 가구에 집중되면 가중치를 제대로 주지 않으면 결과가 편향된다. 


실제로 가중치를 주지 않고 분석을 해보니 조선과 꽤 유사한 결과가 도출된다. 소득이 줄어든 가구가 73%로 조선과 일치한다. 


노동소득만으로 가중치 없이 분석한 결과 노동소득이 줄어든 가구가 50% 넘게 나온다. 조선의 72%와는 상당한 차이가 있는데, 왜 이렇게 차이가 나는지는 조선일보의 구체적 분석방법론을 몰라서 정확히 알 길이 없다.  


여기까지는 그래도 이해가 되는데 가구주가 노동자인 경우만 놓고 노동소득을 분석해보면 조선의 분석이 어떤 자료에 기반한 것인지 도저히 알 수가 없다. 


조선 기사에 따르면, 

가계 총소득이 아닌 가계 근로소득을 기준으로 비교했을 때도 결과는 비슷했다. 근로소득 상위 28.1%에 속한 가구들의 소득만 늘었다. 나머지 71.9%의 가구들의 근로소득은 뒷걸음질쳤다. 근로자인 가구주만 비교해도 마찬가지였다. 상위 23.0%만 급여가 늘고 나머지 77.0%는 줄었다.


위 기사를 내가 해석하기로는 가구주가 근로자인 경우(=상용근로자, 임시근로자, 일용근로자)의 노동소득을 분석한 것하다. 하지만 2018년 가계동향조사는 가구주의 소득을 노동소득과 사업소득을 구분하지 않고 제공한다. 반면 2017년 가계동향조사는 사업소득과 분리가 되어 있다. 두 개 연도를 직접 비교할 수 없다. 


내가 가중치를 주고 계산한 바에 따르면 2017년 가구주의 사업소득을 노동소득과 합쳐서 계산하든 분리해서 계산하든 노동자 가구주의 노동소득은 99% 가구에서 상승한다. 도대체 조선은 어떻게 분석했길래 노동자 가구의 77%에서 급여가 줄어든 것으로 결과가 나온 것인가? 


노동소득이 0인 가구도 포함해서 분석한 것일 수도 있고, 노동자 가구주의 노동소득이 아닌 가구 전체 소득을 분석했을 수도 있다. 분석 자료가 다를 가능성도 배제할 수 없다. 2017년 1분기 표본 가구는 4,415개로 조선의 기술과 일치하는데, 2018년 1분기 표본 가구수는 내가 다운받은 자료에서는 6,610개로 표본수가 6,115개라는 조선의 기술과는 다르다. 조선에서 사용한 systematic sampling으로 일부 표본을 배제하는 과정에 어떤 편향이 있었을 가능성도 있다. 






결론적으로 2018년 문재인 정부 1년 만에 대다수 가구에서 소득이 줄었다는 통계는 가계동향조사의 방법론을 바꾸면서 생겨난 데이타의 불안정을 보수진영이 과장하고 가중치를 제대로 주지않는 잘못된 분석으로 생겨난 해프닝일 가능성이 크다. 


데이타를 분석한 정부 연구기관에서 제대로 된 분석을 다시 내줄 것을 기대한다.   





Ps. 


부탁말씀: 위 분석에 오류를 발견하면 알려주십시오. 


Pps. 


가계동향조사의 Weight 변수는 1개의 샘플이 대표하는 전체 가구의 수다. 많은 사람들이 사용하는 SPSS 프로그램에 이 가중치 변수를 조정하지 않고 적용하면 한국의 전체 가구수로 projection 된다. 이 가중치는 복잡한 샘플링 기법에 따른 표본추출 확률에 따라 계산한 것이다. 가계동향조사 같은 자료로 분석할 때는 대표가구수로 주어진 원자료 가중치로 부터 추출 확률를 역으로 계산하고, 이의 역수로 새롭게 가중치를 줘야 한다.

Posted by 바이커 sovidence