SBS 기사: 마계인천, 이부망천


자유한국당 정태옥 의원이 YTN 뉴스 패널로 나와서 했다는 발언이다. "목동 살던 사람이 이혼하면 부천, 망하면 인천"이라고. 


여론의 십자포화를 맞고 대변인직 사퇴하고 자한당에서 수습하느라 정신이 없는 모양. 본인은 자한당 탈당까지. 정치인으로써 할 소리는 아니지만, 이 말이 지역발전 평가의 측면에서 어떤 진실을 담고 있는지는 살펴볼 필요가 있다고 생각함.  


 



정태옥 의원의 발언을 직접 검증할 수는 없지만, 2015년 인구총조사를 이용하면 2010년 대비 인구 이동을 패턴과 지역이동자의 특징을 볼 수 있음. 


우선 2015년 현재 거주자의 지역별 학력은 다음과 같음. 인천 지역이 서울이나 경기 지역보다 학력이 낮고, 전국 평균보다도 낮음. 인천에 대한 부정적 이미지가 높은 이유 중 하나가 공업지대였고, 타 지역에 비해 학력 수준이 낮기 때문. 


표 1. 현거주자의 학력, 25-59세

 

 서울

인천 

 경기

 전국

 대졸이상

 47.1%

27.1% 

35.4% 

33.6% 

 대학원

 8.6%

3.3% 

5.5% 

5.1% 


그런데 정태옥 의원 발언과 관련해서 중요한 것은 인천 지속 거주자가 아니라 인천 유입 인구의 학력 수준. 


아래 표2는 5년 전 거주지 대비 각 지역으로의 신규 유입자의 학력 수준임. 


보다시피 서울 경기 대비 인천 지역 유입자의 학력 수준이 낮음. 하지만 지난 5년 간 인천 지속 거주자 대비 신규 유입자의 학력 수준은 높음. 인천 지속 거주자 중 대졸이상 학력자는 24.8%에 불과함. 이들 대비 신규 유입자는 42.0%가 대졸 이상 학력으로 인천은 신규 유입으로 전체 학력 평균이 높아지고 있음. 


현 인구 대비 유입자의 대졸 이상 학력자 비중은 서울이 1.30 (=61.2%/47.1%), 경기가 1.42지만, 인천은 1.55에 달함. 


서울이나 다른 경기 지역 대비 인천 신규 유입 인구의 학력이 낮기는 하지만, 인구 유출입으로 인한 학력 고도화 속도가 인천이 다른 수도권보다 상대적으로 빠름. 



표 2. 5년 전 거주지 대비 각 지역 신규 유입자의 학력, 25-59세

 

 서울

인천 

경기 

전국 

 대졸이상

 61.2%

42.0% 

50.4% 

48.3% 

 대학원

 9.8%

5.4% 

8.5% 

8.0% 

* 인천의 경우 송도가 속한 연수구 제외시 대졸 이상은 39.6%, 대학원은 4.3%. 




신규 유입 인구는 그렇고, 어떤 인구가 각 지역에서 다른 지역으로 빠져나가는 것일까? 아래 표3는 각 지역에서 다른 지역으로 유출된 인구의 학력 수준임. 


모든 지역에서 현거주자의 학력보다 유출자의 학력이 더 높음. 앞의 표와 마찬가지로 이는 학력이 높은 인구가 지역 이동이 가능성이 높기 때문. 


표2와 3을 종합해보면 서울은 비록 인구 유출이 심하지만, 신규 유입 인구의 학력이 유출인구보다 확실히 높은데 반해, 인천과 경기는 유입, 유출 인구의 학력 수준이 비슷함. 


표 3. 5년 전 대비 각 지역 유출자의 학력, 25-59세

 

 서울

인천 

경기 

전국 

 대졸이상

 51.9%

39.7% 

47.8% 

48.3% 

 대학원

 9.3%

5.8% 

8.5% 

8.0% 





수도권 내에서 비교하자면, 인천은 2010-2015년 사이에 서울과 경기 모두로부터 유출인구보다 유입인구가 더 많은 순유입을 경험하였음.  


그런데 경기도에서 인천으로 오는 인구는 36.1%가 대졸 이상 학력자인데, 인천에서 경기도로 빠져나가는 인구는 41.2%가 대졸 이상 학력자임. 서울에서 인천으로 오는 인구는 46.4%가 대졸 학력자인데, 인천에서 서울로 이동하는 인구는 54.3%가 대졸 학력자임. 


유입유출자의 프로파일로 보면 인천은 서울, 경기 대비 상대적으로 고학력자를 잃고 있음. 하지만 중요한 건, 절대수임. 서울 경기에서 인천으로 오는 절대수가 인천에서 서울 경기도로 빠져나가는 수 보다 많기 때문에 인천 입장에서는 남는 장사임. (인천 -> 서울) 인구 대비 (서울 -> 인천) 인구가 2.2배 많고, (인천 -> 경기) 인구 대비 (경기 -> 인천) 인구가 1.2배 많음. 인천 입장에서 서울로 고학력자 1명이 떠날 때 2명이 들어오는 격이고, 경기 대비는 거의 1대 1로 교환하고 있음. 





그래서 결론은?


겨우 학력 하나 보고 결론을 내릴 수는 없지만, 학력 측면에서 망천가설의 증거는 발견되지 않음. 수도권 내 인구이동으로 인천이 소외되는 것이 아니라, 비록 느리긴 하지만 수도권 지역 간 학력 격차가 줄어드는 방향으로 움직이는 중. 





Ps. 


지역별 이주자의 이혼율도 파악할 수는 있는데, 이런 통계는 건전한 논쟁에 전혀 도움이 되지 않을 것으로 생각됨. 

Posted by 바이커 sovidence

이 번 포스팅이 비즈조선 기사에 대한 마지막 분석 포스팅이다. 이 번 글이 내가 비즈조선 기사를 보면서 가장 크게 의문을 품었던 점에 대한 포스팅이다. 



 


아래 두 개의 포스팅(요기, 요기)에서 비즈조선에 실린 조귀동 기자의 2018년 1분기 소득이 늘어난 가구는 27.6% 뿐이라는 기사의 오류 중 하나가 가중치일 것으로 추정하였다. 


하지만 가중치 오류로 설명할려고 해도 풀리지 않는 의문이 있는데, 조선일보 기사의 다음 문장이다. 


가계 총소득이 아닌 가계 근로소득을 기준으로 비교했을 때도 결과는 비슷했다. 근로소득 상위 28.1%에 속한 가구들의 소득만 늘었다. 나머지 71.9%의 가구들의 근로소득은 뒷걸음질쳤다. 근로자인 가구주만 비교해도 마찬가지였다. 상위 23.0%만 급여가 늘고 나머지 77.0%는 줄었다. 


나는 아무리 가중치를 빼고 돌려도 이 숫자 비슷하게도 안나온다. 가계 근로소득을 기준으로 비교했을 때 나의 percentile rank 분석에서는 가중치를 빼도 50% 정도 가구에서 근로소득이 증가한다 (가중치를 주면 근로소득이 늘어난 가구 비중은 80%가 넘는다). 가구주의 근로소득만으로 분석하면 95%가 넘는 가구에서 percentile rank로 봤을 때 근로소득이 증가하는 것으로 나온다. 가중치를 빼고 계산했을 때 그렇다. 


71.9% 가구의 근로소득이 줄고, 77.0% 노동자 가구주의 근로소득의 줄었다는 조선비즈의 분석을 통계 프로그램을 이용해서 아무리 이것저것 해봐도 도대체가 재현할 수 없었다. 이건 가중치 문제가 아니다. 


사회과학계에서 툭하면 튀어나오는 재현의 위기. replication이 안되는 문제다. 






그래서 무지막지한 방법을 써보기로 했다. 


비즈조선 기사에서 기술한 방법론은 다음과 같다. 


이번 조사에선 올해 1분기 가계 소득과 지난해 1분기 가계 소득을 가구별 순위로 정렬해 같은 순위별로 소득 증감을 비교했다. 다만 표본 숫자가 다르기 때문에 2018년 표본(6115가구)을 소득 순위별로 정렬한 뒤 같은 간격(처음에는 3의 배수, 두 번째는 20의 배수가 순위인 표본)으로 일부를 삭제해 표본수를 맞췄다. 2017년 4145가구와 2018년 4189가구를 비교했다.


조선을 따라하기 위해 다음과 같은 과정으로 샘플을 추출하였다.  


우선 2018년 표본은 6115일 수가 없다. 6115에서 매 세번째 표본을 배제하면 남는 표본수는 4076개 밖에 안된다. 내가 통계청 MDIS에서 내려받은 2018년 가계동향조사 샘플은 6,610개인데, 여기서 총소득(변수 c100)에 따라 sorting 한 후 매 세 번째를 배제하고, 다시 매 20번째를 배제하면 4187개의 가구가 남는다. 조선의 4189개 표본과 2개 차로 줄어든다. 2017년 표본은 1분기만 남기면 조선의 기술대로 정확히 4145가구다. 





다음으로 설마 조선에서 이렇게 무식하게 하지는 않았을 것이라는 강한 믿음이 있지만, 그래도 몰라서 다음과 같은 과정을 거쳐 보았다. 


1. 위에 기술한 임의로 추출된 2018년 가계동향조사 자료를 엑셀에 붙이고 2017년 자료도 가구총소득(변수 c100)에 따라 sorting한 후 엑셀에 붙였다. 


2. 비록 두 기간의 표본수가 안맞지만 걍 무시하고 sorting된 순서에 따라 가구별 2018년과 2017년 소득 격차를 계산하였다. 2018년 샘플은 4187개로 2017년 샘플 4145개와 매치되지 않는 샘플이 42개 있지만 걍 무시하였다. 


이렇게 임의로 일부 데이타를 무시하면 2018년 percentile rank별로 소득 평균과 소득 threshold를 과소 내지는 과대 평가하는 편향이 생긴다. 어떤 사회과학자도 이렇게 황당하게 하지 않지만 일단 이렇게 해보기로 했다. 


3. 그리고 그래프를 그렸다. 조선의 기술대로 상위 1%는 그래프에서 제외하였다. 그랬더니 다음과 같은 그래프가 그려진다. 




실제 조선일보에 실린 그래프는 아래와 같다. 위에 내가 그린 그래프는 아래 그래프에서 주황색선을 재현한 것이다. 보다시피 이보다 더 정확하게 재현하기도 어렵다. 


이 무식한 방법으로 비즈 조선의 그래프가 정확히 재현된다. 








4. 조선에서는 27.6%의 가구에서 총소득이 줄었다고 했다. 위의 무지막지한 방법으로 두 개 연도의 소득 격차에서 마이너스를 기록한 가구의 비중을 계산해 보니 71.1%다. 28.9%에서 소득이 늘었다. 27.6%에서만 소득이 늘었다는 조선의 분석과는 1.3%포인트 다르다. 작은 격차지만 조선의 분석이 그대로 재현되지는 않는다. 


그런데 위 그래프에서 보면 소득 최하층인 오른쪽 끝부분에서 소득이 증가한 것으로 나온다. 이 부분을 무시하고 소득 변화를 눈대중으로 살펴보니 sorting된 데이타에서 1,147번째 표본부터 그 밑으로 본격적으로 두 해의 소득 격차가 마이너스로 바뀌었다. 다시 말해 1,146가구는 소득이 포지티브라는 얘기다. 


1146/4145 = 27.6% 조선의 분석과 소숫점 첫째자리까지 정확히 일치한다. 위 조선일보 그래프에서 소득 변화가 0 이상인 왼쪽 그래프의 비율만을 소득 증가 가구로 보면 조선의 기술과 일치한다. 오른쪽 끝의 변화는 그냥 퉁칠 경우에 그렇다. 


이 말도 안되는 방법으로 전체 소득 증감에 대한 조선의 분석을 정확히 재현했다. 






5. 다음으로 더 큰 의문인 "근로소득(변수 C102)"으로 넘어가보자. 앞서도 얘기했지만 나는 가중치를 넣든 빼든 정상적인 방법으로 70%가 넘는 가구의 근로소득이 줄었다는 결과를 얻기 어려웠다. 


그래서 다음과 같이 해봤다. 


위에서 추출한 2018년 4187개, 2017년 4145개 표본을 그대로 사용하지만, 엑셀에서 가구근로소득인 C102 변수를 이용해 각 연도별로 새로 sorting한다. 그리고 Control + C & Control + V 하여, 새로운 excel sheet에 나란히 붙였다. 


2017년에 근로소득이 0 이상인 가구는 2,737가구이고, 2018년은 2,627가구에 불과해서 도저히 직접 비교할 수 없지만 역시 걍 무시하였다.  


6. 이렇게 매칭한 데이타로 2017년, 2018년 근로소득 격차를 계산하였다. 정상적인 방법론적 사고로는 두 해의 데이타를 절대 1대 1로 비교해서는 안되지만 두 눈 질끈감고 해보았다.


그랬더니 소득이 네거티브인 가구수가 1,967다. 2017년 소득이 0 이상인 가구(2737가구)를 기준으로 계산하면 다음의 가구에서 소득이 줄었다. 


1967/2737 = 71.9%. 


71.9%의 가구에서 근로소득이 줄고, 28.1%의 가구에서 근로소득이 늘었다. 


이 황당하기 그지없는 방법으로 비즈조선의 보도와 소숫점 첫째자리까지 정확히 일치하게 재현된다. 







7. 그럼 다음은 노동자 가구주의 근로소득에 대해서 계산할 차례인데, 내가 이게 뭐하는 짓인가라는 자괴감이 급격히 몰려온다. 


그만두자. 






한가지 분명히 짚어둘 것은 여기서 기술한 황당한 방법이 비즈조선 조귀동 기자가 쓴 방법이라는 주장은 절대 아니다. 이렇게 무식한 방법으로 한국의 일등신문이 국가 정책에 시비를 걸지는 않았을 것이다. 분명 뭔가 다른 방법을 썼을 것이다.  


글자체를 굵게해서 강조하는 것도 모자라 다시 한 번 말하지만 여기서 기술한 방법이 조선일보에서 쓴 구체적인 방법이라는 주장은 절대 아니다. 






하지만 내가 분명히 말할 수 있는 것은 사회과학자들이 쓰는 정상적인 방법으로 비즈 조선의 숫자가 재현되지 않았는데, 말도 안되게 무지막지하고 사회과학자는 도저히 용납할 수 없는, 이렇게 분석했다가는 F 학점을 면할 수 없는 방법을 썼더니 조선일보의 숫자가 재현되더라는 것이다. 


조선일보, 도대체 어떻게 분석한 것인가???


조선일보의 이 번 기사는 단순한 오류가 아니라 국가 정책과 관련된 큰 논쟁을 일으킨 문제적 기사다. 정상적인 사회과학적 방법으로 재현이 안되면 어떻게 분석했는지 밝히는 것이 도리다. 


도대체 어떻게 분석한 것인가???

Posted by 바이커 sovidence

작년 불평등학회에서 가중치에 대한 특강을 한 적이 있다. 하기는 했는데, 어떤 부분을 강조하고 설명해야할지 잘 몰랐다. 


강의 끝나고 Q&A 시간에 질문을 받고서야 내 강의가 잘못되었다는 것을 깨달았다. 강의를 하면서 가중치가 계수 측정에 끼치는 효과는 모두 이해하고 있다고 가정하고, 몇 가지 가중치 부여법에 따라 표준오차 측정이 어떻게 달라지는지만 잔뜩 설명했다. 질문을 받고 보니 가중치가 계수 측정에 끼치는 영향부터 설명했어야 했다. 


조선비즈 조귀동 기자의 분석이 잘못된 이유 중 하나는 가중치에 대한 이해의 부족 때문이다. 본인은 그거 전부 안다고 주장하는 것 같은데, 아는 분이 왜 그렇게 했는지... 


이 기회에 작년에 잘하지 못한 특강을 만회키 위해 가중치를 잘못주면 어떻게 망하는지 쉬운 예를 들어 설명하고자 한다. 


아래 표1이 두 기간 (Time 0, Time 1) 동안의 소득 샘플과 가중치라고 치자. 두 기간 동안 소득 분포에는 전혀 변화가 없는데, Time 0에서는 고소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. Time 1에서는 저소득층 복지 정책을 보다 정확히 실행하기 위해 최저소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. 


두 기간 동안 소득 분포에 아무런 변화가 없지만 샘플링에만 변화가 있었다는 것. 이 경우 가중치는 아래와 같이 time 0에서는 고소득층에 낮은 가중치를 time 1에서는 저소득층에 낮은 가중치를 준다. 가중치를 주어서 평균을 계산하면 두 기간의 평균과 분포가 모두 똑같아 진다. 



표 1. 소득 샘플과 가중치

rank

T0 - 소득

가중치

T1 - 소득

가중치

1 10 1.0 10 0.5
2 20 1.0 10 0.5
3 30 1.0 20 1.0
4 40 1.0 30 1.0
5 50 1.0 40 1.0
6 60 1.0 50 1.0
7 70 1.0 60 1.0
8 80 1.0 70 1.0
9 90 1.0 80 1.0
10 100 0.5 90 1.0
11 100 0.5 100 1.0



위의 경우에 가중치를 주어서 다시 계산하면 소득 분포가 아래 표 2와 같이 된다. 보다시피 두 기간 동안 소득이 줄어든 계층은 아무도 없다. 당연하지 않은가. 두 기간 동안 소득 분포에 변화가 없이 고소득층과 저소득층의 over-sampling 방법만 바꾸었으니까. 



표 2. 가중치를 주어서 조정한 샘플로 소득 변화를 측정한 경우 

rank

T0 - 소득

T1 - 소득

T1-T0 격차

1 10 10 0
2 20 20 0
3 30 30 0
4 40 40 0
5 50 50 0
6 60 60 0
7 70 70 0
8 80 80 0
9 90 90 0
10 100 100 0




그런데 위 표1에서 가중치를 조정하지 않고 percentile rank를 계산하면 아래 표3과 같은 결과가 나온다. 두 기간 동안 소득이 줄어든 비율이 8/11, 즉 73%가 나오게 된다. 소득 분포에 아무런 변화가 없음에도 가중치를 이해하지 못하면 73% 국민의 소득이 줄어들었다는 놀라운 결과가 나오게 된다.   



표 3. 가중치 없이 소득 변화를 측정한 경우 

rank

T0 - 소득

T1 - 소득

T1-T0 격차

1 10 10 0
2 20 10 -10
3 30 20 -10
4 40 30 -10
5 50 40 -10
6 60 50 -10
7 70 60 -10
8 80 70 -10
9 90 80 -10
10 100 90 -10
11 100 100 0



실제로 가계동향조사는 2018년에 표본수를 늘리면서 소득이 낮은 노인가구를 확대하는 쪽으로 샘플링이 개편되었다고 알려져 있다. 가중치를 제대로 적용하지 않으면 위에서 예를 든 것과 같은 효과가 나타나게끔 되어 있다. 


다른 통계보다 특히 percentile rank 는 가중치 부여 여부에 민감하다. 소득 최하층이나 고소득층이 over-sampling되는데 가중치를 제대로 부여하지 않으면 전체 percentile rank 가 엉망으로 되어버린다. 





이 문제에 대해서 좀 더 심각했던 논쟁은 요즘 사회과학계의 신성 Chetty 등이 사용하는 소득 rank order에 대해서 Yu Xie 교수가 제기한 문제다. 소득 측정에 error가 있는데 한 응답자의 소득이 잘못측정될 경우 rank order로 측정하면 최소 2명 응답자의 rank order에 오류가 발생한다는 것이다. 최소 2명이고, 측정오차가 크면 rank order는 더 크게 영향을 받는다. 즉, rank order는 측정오차에 대해 민감하기 때문에 Chetty 등의 방법론은 측정 오차에 더 민감해서 reliability가 떨어진다는 비판이다.  


미국 서베이로는 SIPP이 복지 혜택을 받는 저소득층이 over-sampling 되어 있다. 가중치를 주지 않으면 소득이 낮게 추정된다. 또 다른 예로 대졸자 서베이인 NSCG는 아시안이 over-sampling 되어 있다. 아시안의 과학기술편중이 심하고 이들의 소득이 높기 때문에 가중치를 주지 않으면 결과가 엉망이 된다. 

Posted by 바이커 sovidence

한국일보: 문통, 가계소득 통계 과도한 해석


5월31일 문대통령의 최저임금의 긍정 효과가 90%라는 말은 실제 워딩을 찾아보니 아마도 고용근로자 간의 격차를 의미하는 듯한데, 청와대에서 명확하게 제시하지 않는 이상 알 길은 없음. 


그런데 가계동향조사로 고용근로자 간의 격차를 볼 수 있는지가 논란의 대상. 


한국일보, 조선일보 모두 통계청 관계자의 말을 인용하여 가계동향 조사는 가구 단위 조사라 개인별 소득을 볼 수 없다고 보도. 


하지만 이는 반만 맞는 말. 


가계동향조사는 일반공개 원자료에서 2009년 이후 가구주, 배우자, 기타가구원의 고용상태와 소득에 대해 질문하고 있음. 


가구주와 배우자를 제외한 가구원 중에 2인 이상의 가구원이 소득이 있는 가구를 제외한 모든 가구 구성원의 개인노동소득을 추정할 수 있음. 그런데 부부를 제외한 2인 이상 가구원이 노동 소득이 있는 가구는 내 기억으로는 전체 가구의 2% 미만임 (몇 년 전에 돌려봤던거라 기억이 정확하지는 않음).  


2% 정도의 가구 중에서 가구주와 배우자를 제외한 나머지 가구원의 노동소득이 제대로 추정되지 않는다는 것임. 기억할 것은 2% 가구 중에서 가구주와 배우자의 소득은 파악됨. 


설사 그렇더라도 일부 노동자가 통계에서 누락되는거 아니냐고 의문을 제기할 수도 있음. 하지만, 이들 가구원의 소득은 기타가구원으로 뭉뚱그려 파악된 소득을 균등 배분해서 추정하는 방법이 있음. 가계동향조사의 한계로 볼 때 이 정도 오차는 큰 오차라고 하기 어려움.  


확신할 수는 없지만 비공개 자료에서는 모든 가구원의 소득 파악이 가능할 것으로 예상됨. 


즉, 가구동향조사를 이용한 개인 노동 소득 추정이 충분히 가능함. 통계청에서 그렇게 활용하지 않고 있을 뿐. 


기가 막히는 것은 이런 논란이 될만한 추정 방법 외에는 자료가 아예 없다는 것. 






Ps. 


늘상 하는 말이지만 한국은 불평등 정도를 제대로 알 수 있는 자료가 없음. 우리가 아는 지니계수는 가구단위 균등화 소득에 근거한 것. 개인 노동소득, 개인 기타소득의 격차를 알 수 있는 가장 기초적인 서베이가 아예 없음. 이 서베이를 새로 론칭해야 한다고 아무리 얘기해도 .... 


일부에서는 세금 자료를 이용하면 되지 않냐고 하는데, 세금 자료도 불완전함. 세금자료를 이용한 불평등 추정은 서베이조사보다 더 많은 가정에 근거해서 추정하는 것. 


패널조사 다들 좋아하는데, 소득불평등을 알려면 제대로된 cross-sectional survey부터 론칭해야. 

Posted by 바이커 sovidence

막스플랑크 연구소 논문


경제가 발전하고 소득이 증가하면서 출산율이 떨어진다는게 상식이었는데, 유럽 250여개 지역을 조사해보니, 2012년 현재 소득 증가가 출산율 증가가 정의 상관을 보이더라고. 


아래 그래프에서 보듯 1992년과 2012년에 소득과 출산율의 상관관계가 변화. 


연구진들은 그 이유로 여러가지를 드는데 가장 중요한게 정책적 변화. 세금 감면 혜택 같은 간접적 방식에서 자녀를 낳은 가정에게 더 많은 돈과 시간을 직접 부여하는 방식으로의 전환. 


flexible work schedule이 늘어나는 등 워라밸이 가능한 근로 환경으로 변화도 크다고 연구진은 판단.  


즉, 여성이 출산 후 커리어에 대해서 걱정하지 않게되면 출산율이 높아진다는 것. 




Posted by 바이커 sovidence

하버드대 Data Smart City 포스트

NYT 2013년 기사

뉴욕시의 FireCast 시스템

The Verge 기사: New York City is using big data to predict fires


대형 화재로 인한 인명사고가 발생하면서 그 책임을 둘러싼 정치적 공방이 치열한데, 지켜보기 영 불편함. 예전에 세월호 때도 얘기했지만 사고를 완전히 예방하는 것은 불가능. 


소방법을 바꾼다고 화재가 발생안하는 것도 아니고, 지금까지 건물을 엉망으로 짓고 소방점검 때 마다 눈가리고 아웅했던 안전진단을 다 제대로 다 실시할 것으로 기대하는 것도 어려움. 그럴 수 있는 예산도 인력도 없음. 


이러한 문제에 대한 새로운 접근법으로 제시되고 있는게 빅데이타를 이용한 화재 확률 예측 시스템. 


나님이 화재에 대해서 눈꼽만큼이라도 안다는 얘기는 아님. 다만 지방정부 단위에서 구축하는 빅데이타를 스마트하게 활용하는 방법 중의 하나가 화재 확률 예측이라는 것. 


확률 계산 결과, 화재와 그로 인한 인명 사고의 위험이 높은 빌딩이라는 진단이 내려지면 한정된 소방 인력을 투입하고 그 빌딩의 안전 진단을 더 세밀하게 실시하는 것. 


꿈같은 얘기가 아니라 미국의 여러 도시에서 이미 실시하고 있는 시스템임. 




이러한 확률 계산을 위해서는 지방정부가 모든 빌딩에 대한 방대한 데이타를 수집하고, 자료를 분석해야 함. 


그런데 소방만을 목적으로 그 방대한 자료를 수집하고 고급 인력을 투입하여 분석하는 것은 불가능함. 정부가 빌딩, 교통, 개인의 활동에 대한 모든 정보를 수집하여 중앙에 빅데이타를 구축하고 이를 다양한 분석에 활용하는데 그 중 하나가 화재 위험 예측. 


정부가 수집하는 정보에는 트위터에서 어떤 식당을 방문했더니 이러저러하게 짜증나는 일이 있었다 같은 것도 포함될 수 있음. 빌딩에 입주한 업주별 화재 관련 위반 사항 같은 민감함 정보도 모두 수집되어야 함. 


그러다 보면 사생활 침해에 대한 논란이 있을 수 있는데, 빅브라더가 감시를 위해 정보를 수집하는 것이 아니라 시민의 안전과 복리를 향상시키고, 정부 활동의 효율성을 높이기 위한 것. 


내가 언론사 편집장이었으면 갑자기 지면에 화재 발생 보도를 많이 배치할게 아니라 이런거 취재해서 심층 보도했을 것. 

Posted by 바이커 sovidence

Vox EU 요약문


네델란드의 동성애자와 이성애자를 대상으로 결혼, 동거로 인한 주관적 행복도 변화를 살펴본 결과, 


10점 만점의 주관적 행복도 척도에서 각 상황과 성향별 평균 점수는 아래와 같음. 


 

 이성애자

 동성애자 

 파트너가 있는지 여부

 

 

 - 파트너 없음

6.98

 7.65 

 - 파트너 있음 

  7.73  

7.76

 파트너와 혼인/동거

 

 

 - 혼인

 7.76 

 7.83 

 - 동거 

 7.58 

 7.68 



혼인이든 동거든 파트너가 있는 사람이 더 행복하고, 평균적으로 동성애자가 더 행복하다고 느낌. 혼인과 동거 중에서 동거보다는 혼인관계의 사람들이 더 행복하다고 느낌. 


저자들은 결혼해서 행복해지는게 아니라 행복한 사람이 결혼할 가능성도 연구했는데 행복한 사람이 결혼하는 selectivity는 결혼으로 행복해지는 효과의 절반만 설명. 


동성애자든 이성애자든 결혼은 평균적으로 비슷한 수준의 행복 증가로 이어진다고 함. 


결론: 모태솔로는 불행한 것이여. 

Posted by 바이커 sovidence

머니투데이 뉴스


"진술에 따르면 지난해 청와대 정무수석실은 20대 총선 결과를 예측하기 위해 자체적으로 실시한 비공개 여론조사 비용을 사후정산해야 한다며 국정원에 자금을 요청했다. 이에 국정원은 특수활동비 5억원을 정무수석실에 지급했고, 정무수석실은 이 돈으로 여론조사 비용을 정산했다. 지난해 청와대 정무수석에는 6월까지 현기환 전 수석, 이후에는 김재원 전 수석이 재직했다.


지난해 4월 청와대 정무수석실 소속 신동철 당시 정무비서관은 4.13 총선 결과를 예측해 박근혜 전 대통령에게 보고하기 위해 자체적으로 비공개 여론조사를 실시했다. 총선 직전 신 전 비서관은 여론조사 결과를 토대로 당시 여당이었던 새누리당의 과반의석 확보가 어려울 수도 있다고 현 전 수석에게 보고했으나 현 전 수석은 박 전 대통령에게 과반의석 확보가 가능하다는 취지로 보고한 것으로 알려졌다."




청와대가 국정원 돈을 받아서 총선 자체 여론조사를 했다. 뇌물, 세금으로 자기네들 정치 자금 유용, 청와대가 선거개입 가능성 등 문제가 되는게 한 두 가지가 아닌데, 


나같은 사람에게 또 한가지 놀라운 것은 여론조사 기관과 언론사들은 모두 예측하지 못하고 틀렸던 새누리당 과반 의석 확보 실패를 박근혜 청와대는 정확히 예측했다는 것이다. 


도대체 어느 여론조삭 기관인가? 어떤 방법을 사용한 것인가? 여의도 연구소도 과반확보 실패 가능성을 보고했었다는데, 단순 지지율을 묻는 방식 외에 보수야당 측에서 사용하는 뭔가 다른 선거 여론조사 노하우가 있는 듯하다. 


이런 지식은 공개하고 공유해야 하는 것 아닌가? 

Posted by 바이커 sovidence

마지막 주간동아 기고문



정부와 통계청이 소득 자료와 재산 자료 공개를 거부하는 핵심 논리가 프라이버시 보호. 하지만 복지국가일수록 중앙 정부가 국민들의 일상 생활에 대한 많은 정보를 축적하고 있고, 연구를 위해 공개하고 있음. 


정작 필요한 프라이버시는 정부에서 보호하지도 않으면서 부자들을 위한 이데올로기로 프라이버시 보호를 악용하는 경우가 빈번함.  


"과학은 진보 편향이 있다 (science has a liberal bias)"라는 말도 있음. 정확한 통계는 없는 사람들의 편. 정확한 통계 없이 복지도 없고 평등한 사회도 없음. 


박근혜 정부에서 정부 투명성이 낮아지고, 정보를 공개하지 않는 반면, 진보 정권에서 정보 공개권을 강화하는게 우연이 아님. 


통계 입국이 복지 강화의 길. 





최근 한국 대선에서 안철수 후보 딸의 재산이 이슈가 되었음. 

‘독립생계 유지’를 이유로 재산 공개 의무를 지지 않는 자녀가 의혹 대상이 된 것이다. ... 그런데 노르웨이에서는 다르다. 모든 사람의 세금 자료가 인터넷에 공개되고 있다. 매년 10월이면 모든 노르웨이인의 소득 정산 보고서가 공지된다. 언론은 최고 소득자가 누구인지 보도하고, 정치인과 유명 인사의 소득을 소재로 기사를 쓴다. 누구나 이웃, 친구, 동료의 연소득을 확인할 수 있다. ...

노르웨이만 유난한 것이 아니다. 스웨덴도 1903년 이후 모든 세금정산 보고서가 공공자료가 됐다. 전화 한 통이면 누구든 타인의 세금 명세를 알 수 있다. 이때 정보 요청자의 실명을 밝힐 필요도 없다. ... 

북유럽 복지국가들이 세금 정보를 투명하게 공개하게 된 것이 우연은 아니다. 소득과 관련한 프라이버시를 지나치게 강조하는 것은 복지 확대와 양립하기 어렵다. 복지는 필연적으로 개인 정보의 정부 집중을 필요로 한다. 복지 수혜자를 제대로 가려내려면, 또 복지 재원을 충분히 마련하려면 소득 정보를 정확히 파악해야 하기 때문이다. ... 

소득 불평등과 차별을 줄이려면 정확한 통계 정보가 필요하다. ... 미국은 한국보다 프라이버시를 더 중요하게 여길 것으로 생각되지만, 일부 보안을 요하는 직종을 제외하면 모든 연방정부 공무원의 개인별 연봉 자료가 인터넷에 공개돼 있다. 많은 주정부가 주공무원의 연소득 자료를 인터넷에 공개하고 있기도 하다. 주립대 교수들도 예외가 아니다. ...  

많은 국가가 국세청 소득 자료와 서베이를 연계해 불평등 증가의 원인을 밝혀내려 애쓰고 있다. 미국도 여러 서베이와 세금 자료를 연계해 연구한다. 최근 발표된 불평등에 대한 중요한 사회과학 논문의 상당수가 개인의 세금자료를 직접 분석한 것들이다. ... 

우리나라는 주민등록번호가 있어 다른 나라보다 자료를 연계해 이용하는 게 쉽다. 교육, 소득, 의료 정보를 연계해 불평등과 빈곤 정도를 파악하고 정책 효과를 검증할 수 있다. 불평등이 어느 정도인지, 얼마나 늘었는지, 누가 빈곤층인지 정확히 알 수 있다. 실제로 북유럽 복지국가는 모두 이렇게 한다. 전 국민의 자료를 분석해 복지 사각지대를 없애려 노력한다. 

프라이버시 보호는 중요하다. 하지만 정부가 정보를 독점하고 국민 복지 향상을 위해 사용하지 않는 것은 부유층의 이해를 대변하는 것으로 귀결될 공산이 크다. 국민 복지는 정보의 공개와 정확한 통계의 작성에서 시작된다.


주간동아의 부분개편으로 이 글이 저의 주간동아 마지막 기고문이 되었습니다. 2년 넘게 읽어주신 독자분들께 감사드립니다. 

Posted by 바이커 sovidence




- 5/3 예측: 추가 보도가 있어서 업데. 


5월2일 조사를 추가하면 안철수 하락, 홍준표 상승의 추세가 더 명확함. 


심상정 9.0%, 유승민 5.2%. (지난 주말 이후 조사에 90% 가중치를 준 결과임)


안철수 지지율은 지난 10일 동안 하루 평균 1.4%포인트씩 빠지는 중. 반면 홍준표 지지율은 하루 1.0%포인트씩 증가. 이 추세가 지속될 경우 문재인은 최종적으로 44% 내외. 안철수는 15%내외, 홍준표는 25%내외를 받을 수 있음. 하지만 남은 안철수 지지층의 충성도가 지난 10일간의 이탈층보다 높을 것이고, 홍준표도 집중 견제를 받기 시작했기에 추가 상승을 얼마나 할 수 있을지는 확실치 않음. 


이 번 주 여론조사 평균만 놓고 보면 문재인-안철수 갭은 19.6%p, 안철수-홍준표 갭은 3.3%p. 


문재인 당선 확률은 99%+ 달함. 확률 계산이 의미 없음. 이 번 예측 확률 계산을 설계하면서 당선확률 1이 90%를 넘어갈 것으로 기대치 않았음. 미국에서 힐러리 당선 확률이 99%라고 얘기할 때는 힐러리-트럼프 격차가 2-3%p에 불과했음. 온갖 시뮬레이션으로 확률을 과장한 것. 반면 현재 한국 대선의 여론조사에서 문재인과 안철수의 격차는 18-19%p에 달함. 모든 조사가 매우 안정적으로 최소 15%p, 최대 23%p 문재인의 우세를 점치고 있음. 조사 결과의 reliability가 높음. 이 격차는 설사 응답에 바이어스(즉, 샤이 안철수, 샤이 홍준표)가 있어도 뒤집기 힘든 수준. 문재인이 이기지 못하면 한국 여론조사 회사가 모두 문닫는건 물론이고, 서베이 방법론의 validity를 폐기해야 할 수준.   


앞으로 여론조사가 없는 6일 동안 안철수-홍준표 단일화 이외에 판세를 흔들 변수는 없다고 생각. 몇가지 시뮬레이션을 돌려봤는데 설사 단일화가 되더라도 단일화의 시너지 효과가 기존 문재인 지지율을 잠식하지 못하는 이상 문재인 당선 확률이 더 높음. 단 한가지 변수는 <단일화 + 기존 여론조사의 응답편향>이 같이 나타날 경우. 이 경우도 역전이 확실한게 아니라 누가 이길 수 알 수 없게되는 수준.    


- 5/2 예측: 중앙일보, 한국리서치, R&R, 마크로엠브레인의 주말과 월요일 조사 추가. 문재인 지지율이 고점 대비 1.7%포인트 하락. 심상정 9.3%, 유승민 5.1%.


- 4/30 예측: 이 번 주말에 KSOI외에 예측에 포함된 조사 기관의 결과가 없어서 안철수 하락, 홍준표 상승이라는 최근 변화가 완전히 반영되지 않은 것. 심상정 6.6%, 유승민 4.7%. 


- 4/27 예측: 유승민 4.1%, 심상정 5.1%. 심상정 지지율이 올라가는 추세인건 맞는데, 8% 넘어갔는지는 추가 확인 필요. 현재까지는 같은 기간에 실시된 한국리서치 조사에서만 이러한 결과가 나옴.  


- 4/26 예측: 당선확률 2는 99%를 넘어가서 통계로서의 의미가 없어서 더 이상 업데 안함. 보다시피 문재인 지지율은 변화가 없고 안철수 지지율은 하락. 반면 다른 모든 후보자 지지율 상승 중. 안철수로 결집되었던 반문연대가 제 갈 길 찾아 흩어지는 형세. 유승민 4.0%, 심상정 4.8%. 


- 4/25 예측: 중앙일보 자체 조사 추가. 4/22-24일 사이에 조사된 4개 조사(중앙, 칸타, R&R, KSOI)의 평균 1-2위 격차는 10.6%포인트. 당선확률 2는 거의 최대치에 도달. 지난주까지만해도 문재인 지지율의 조사기관별 격차(st.dev)가 더 컸는데, 지난 19일 이후 조사에서는 안철수 지지율의 조사기관별 격차가 더 커짐. 문재인 지지는 안정화되는 반면 안철수 지지는 불확실성이 증가. 참고로 심상정 4.2%, 유승민 3.7%.


- 4/24 발표 여론조사 특징: 당선확률 1이 당선확률 2만큼 오르지 않은 이유는 이전 조사 대비 무응답층의 확대 때문. 안철수의 지지율이 떨어져 격차는 확대되었지만 문재인의 지지율이 그에 비례해 오른 것은 아님. 예상득표율을 보더라도 안철수가 2%포인트 하락하는 동안, 문재인은 0.4%포인트만 오름. 조선일보 발표만 보면 4/14 조사 대비 4/22조사에서 안철수 지지율은 5%포인트 하락하지만, 문재인 지지율은 1.2%포인트만 증가. 문재인의 표 확장력에 한계가 있지만, 안철수가 반문재인표를 모아낼 수 있는 능력을 보여주지는 못하고 있음. 


- 4/22, 4/23일자 예상치는 해당 일자에 새로 업데된 여론조사가 없어서 4/21자, 4/24일자 예상치의 가중평균을 단순 대입한 것. 


- 업데할 때 마다 이 포스팅을 첫포스팅으로.  


- 당선확률 1은 여론조사에 2-3%포인트 숨은 에러가 있다고 가정할 경우이고, 당선확률 2는 그런 에러가 없다고 가정할 경우.


- 안철수의 당선 확률 = 100 - 문재인 당선 확률


- 구체적인 분석 방법론은 요 포스팅 참조.  

Posted by 바이커 sovidence