조선비즈 기사: 도대체 어떻게 분석한 것인가?

인구 통계 2018. 6. 8. 13:57

이 번 포스팅이 비즈조선 기사에 대한 마지막 분석 포스팅이다. 이 번 글이 내가 비즈조선 기사를 보면서 가장 크게 의문을 품었던 점에 대한 포스팅이다.

아래 두 개의 포스팅(요기, 요기)에서 비즈조선에 실린 조귀동 기자의 2018년 1분기 소득이 늘어난 가구는 27.6% 뿐이라는 기사의 오류 중 하나가 가중치일 것으로 추정하였다.

하지만 가중치 오류로 설명할려고 해도 풀리지 않는 의문이 있는데, 조선일보 기사의 다음 문장이다.

가계 총소득이 아닌 가계 근로소득을 기준으로 비교했을 때도 결과는 비슷했다. 근로소득 상위 28.1%에 속한 가구들의 소득만 늘었다. 나머지 71.9%의 가구들의 근로소득은 뒷걸음질쳤다. 근로자인 가구주만 비교해도 마찬가지였다. 상위 23.0%만 급여가 늘고 나머지 77.0%는 줄었다.

나는 아무리 가중치를 빼고 돌려도 이 숫자 비슷하게도 안나온다. 가계 근로소득을 기준으로 비교했을 때 나의 percentile rank 분석에서는 가중치를 빼도 50% 정도 가구에서 근로소득이 증가한다 (가중치를 주면 근로소득이 늘어난 가구 비중은 80%가 넘는다). 가구주의 근로소득만으로 분석하면 95%가 넘는 가구에서 percentile rank로 봤을 때 근로소득이 증가하는 것으로 나온다. 가중치를 빼고 계산했을 때 그렇다.

71.9% 가구의 근로소득이 줄고, 77.0% 노동자 가구주의 근로소득의 줄었다는 조선비즈의 분석을 통계 프로그램을 이용해서 아무리 이것저것 해봐도 도대체가 재현할 수 없었다. 이건 가중치 문제가 아니다.

사회과학계에서 툭하면 튀어나오는 재현의 위기. replication이 안되는 문제다.

그래서 무지막지한 방법을 써보기로 했다.

비즈조선 기사에서 기술한 방법론은 다음과 같다.

이번 조사에선 올해 1분기 가계 소득과 지난해 1분기 가계 소득을 가구별 순위로 정렬해 같은 순위별로 소득 증감을 비교했다. 다만 표본 숫자가 다르기 때문에 2018년 표본(6115가구)을 소득 순위별로 정렬한 뒤 같은 간격(처음에는 3의 배수, 두 번째는 20의 배수가 순위인 표본)으로 일부를 삭제해 표본수를 맞췄다. 2017년 4145가구와 2018년 4189가구를 비교했다.

조선을 따라하기 위해 다음과 같은 과정으로 샘플을 추출하였다.

우선 2018년 표본은 6115일 수가 없다. 6115에서 매 세번째 표본을 배제하면 남는 표본수는 4076개 밖에 안된다. 내가 통계청 MDIS에서 내려받은 2018년 가계동향조사 샘플은 6,610개인데, 여기서 총소득(변수 c100)에 따라 sorting 한 후 매 세 번째를 배제하고, 다시 매 20번째를 배제하면 4187개의 가구가 남는다. 조선의 4189개 표본과 2개 차로 줄어든다. 2017년 표본은 1분기만 남기면 조선의 기술대로 정확히 4145가구다.

다음으로 설마 조선에서 이렇게 무식하게 하지는 않았을 것이라는 강한 믿음이 있지만, 그래도 몰라서 다음과 같은 과정을 거쳐 보았다.

1. 위에 기술한 임의로 추출된 2018년 가계동향조사 자료를 엑셀에 붙이고 2017년 자료도 가구총소득(변수 c100)에 따라 sorting한 후 엑셀에 붙였다.

2. 비록 두 기간의 표본수가 안맞지만 걍 무시하고 sorting된 순서에 따라 가구별 2018년과 2017년 소득 격차를 계산하였다. 2018년 샘플은 4187개로 2017년 샘플 4145개와 매치되지 않는 샘플이 42개 있지만 걍 무시하였다.

이렇게 임의로 일부 데이타를 무시하면 2018년 percentile rank별로 소득 평균과 소득 threshold를 과소 내지는 과대 평가하는 편향이 생긴다. 어떤 사회과학자도 이렇게 황당하게 하지 않지만 일단 이렇게 해보기로 했다.

3. 그리고 그래프를 그렸다. 조선의 기술대로 상위 1%는 그래프에서 제외하였다. 그랬더니 다음과 같은 그래프가 그려진다.

실제 조선일보에 실린 그래프는 아래와 같다. 위에 내가 그린 그래프는 아래 그래프에서 주황색선을 재현한 것이다. 보다시피 이보다 더 정확하게 재현하기도 어렵다.

이 무식한 방법으로 비즈 조선의 그래프가 정확히 재현된다.

4. 조선에서는 27.6%의 가구에서 총소득이 줄었다고 했다. 위의 무지막지한 방법으로 두 개 연도의 소득 격차에서 마이너스를 기록한 가구의 비중을 계산해 보니 71.1%다. 28.9%에서 소득이 늘었다. 27.6%에서만 소득이 늘었다는 조선의 분석과는 1.3%포인트 다르다. 작은 격차지만 조선의 분석이 그대로 재현되지는 않는다.

그런데 위 그래프에서 보면 소득 최하층인 오른쪽 끝부분에서 소득이 증가한 것으로 나온다. 이 부분을 무시하고 소득 변화를 눈대중으로 살펴보니 sorting된 데이타에서 1,147번째 표본부터 그 밑으로 본격적으로 두 해의 소득 격차가 마이너스로 바뀌었다. 다시 말해 1,146가구는 소득이 포지티브라는 얘기다.

1146/4145 = 27.6% 조선의 분석과 소숫점 첫째자리까지 정확히 일치한다. 위 조선일보 그래프에서 소득 변화가 0 이상인 왼쪽 그래프의 비율만을 소득 증가 가구로 보면 조선의 기술과 일치한다. 오른쪽 끝의 변화는 그냥 퉁칠 경우에 그렇다.

이 말도 안되는 방법으로 전체 소득 증감에 대한 조선의 분석을 정확히 재현했다.

5. 다음으로 더 큰 의문인 "근로소득(변수 C102)"으로 넘어가보자. 앞서도 얘기했지만 나는 가중치를 넣든 빼든 정상적인 방법으로 70%가 넘는 가구의 근로소득이 줄었다는 결과를 얻기 어려웠다.

그래서 다음과 같이 해봤다.

위에서 추출한 2018년 4187개, 2017년 4145개 표본을 그대로 사용하지만, 엑셀에서 가구근로소득인 C102 변수를 이용해 각 연도별로 새로 sorting한다. 그리고 Control + C & Control + V 하여, 새로운 excel sheet에 나란히 붙였다.

2017년에 근로소득이 0 이상인 가구는 2,737가구이고, 2018년은 2,627가구에 불과해서 도저히 직접 비교할 수 없지만 역시 걍 무시하였다.

6. 이렇게 매칭한 데이타로 2017년, 2018년 근로소득 격차를 계산하였다. 정상적인 방법론적 사고로는 두 해의 데이타를 절대 1대 1로 비교해서는 안되지만 두 눈 질끈감고 해보았다.

그랬더니 소득이 네거티브인 가구수가 1,967다. 2017년 소득이 0 이상인 가구(2737가구)를 기준으로 계산하면 다음의 가구에서 소득이 줄었다.

1967/2737 = 71.9%.

71.9%의 가구에서 근로소득이 줄고, 28.1%의 가구에서 근로소득이 늘었다.

이 황당하기 그지없는 방법으로 비즈조선의 보도와 소숫점 첫째자리까지 정확히 일치하게 재현된다.

7. 그럼 다음은 노동자 가구주의 근로소득에 대해서 계산할 차례인데, 내가 이게 뭐하는 짓인가라는 자괴감이 급격히 몰려온다.

그만두자.

한가지 분명히 짚어둘 것은 여기서 기술한 황당한 방법이 비즈조선 조귀동 기자가 쓴 방법이라는 주장은 절대 아니다. 이렇게 무식한 방법으로 한국의 일등신문이 국가 정책에 시비를 걸지는 않았을 것이다. 분명 뭔가 다른 방법을 썼을 것이다.

글자체를 굵게해서 강조하는 것도 모자라 다시 한 번 말하지만 여기서 기술한 방법이 조선일보에서 쓴 구체적인 방법이라는 주장은 절대 아니다.

하지만 내가 분명히 말할 수 있는 것은 사회과학자들이 쓰는 정상적인 방법으로 비즈 조선의 숫자가 재현되지 않았는데, 말도 안되게 무지막지하고 사회과학자는 도저히 용납할 수 없는, 이렇게 분석했다가는 F 학점을 면할 수 없는 방법을 썼더니 조선일보의 숫자가 재현되더라는 것이다.

조선일보, 도대체 어떻게 분석한 것인가???

조선일보의 이 번 기사는 단순한 오류가 아니라 국가 정책과 관련된 큰 논쟁을 일으킨 문제적 기사다. 정상적인 사회과학적 방법으로 재현이 안되면 어떻게 분석했는지 밝히는 것이 도리다.

도대체 어떻게 분석한 것인가???