비즈조선: 1분기 소득 늘어난 가구는 27.6%뿐. 근로소득도 71.9%가 소득 줄어


문통의 주장을 조선에서 크게 반박했다길래 읽어봤는데, 기사에서 기술한 방법론이 이해가 가지 않았다. 


조선일보의 방법론: 이번 조사에선 올해 1분기 가계 소득과 지난해 1분기 가계 소득을 가구별 순위로 정렬해 같은 순위별로 소득 증감을 비교했다. 다만 표본 숫자가 다르기 때문에 2018년 표본(6115가구)을 소득 순위별로 정렬한 뒤 같은 간격(처음에는 3의 배수, 두 번째는 20의 배수가 순위인 표본)으로 일부를 삭제해 표본수를 맞췄다. 2017년 4145가구와 2018년 4189가구를 비교했다. 


아무도 소득 원자료를 이렇게 분석하지 않는다. 


2017년과 2018년의 조사 표본이 다를 때 정상적인 사회과학자라면 당연히 (1) 각 연도의 percentile rank를 구하고 (2) percentile points의 소득이나 각 percentile block의 평균소득을 비교할 것이다. 이 때 (3) 각 연도의 데이타는 표집 확률의 inverse 값으로 적절한 가중치를 주어야 한다. 


조선일보에서 기술한 방법론은 주먹구구식이다. 조선에서 기술하듯이 표본수를 맞춰서 분석했다면 적절한 가중치를 부여하지 않았을 개연성이 크다. 2017년과 2018년에 표본수가 바뀌었기에 가중치에 상당한 변화가 있을 수 있다. 가중치를 제대로 적용하지 않으면 분석이 편향된다. 





그래서 2017년, 2018년 가계동향조사 원자료를 직접 분석해 봤다. 가계동향조사 원자료는 통계청 MDIS 웹사이트에서 다운로드 받을 수 있다. 


그랬더니 조선의 분석은 이상해 보인다. 


우선 조선의 분석과 비교적 일치하는 부분. 전체 가구 중 소득이 줄어든 비중이 67%에 달한다. 조선의 73%와는 다소 차이가 있지만 대다수의 가구에서 총소득이 줄어든 것은 맞다. 


그런데 노동소득이 0 이상인 가구를 대상으로 노동소득만으로 분석하면 소득이 줄어든 가구는 하위 5~15%tile 사이의 가구와 소득 45~50%tile 사이의 가구들이다. 퍼센타일로 나누었을 때 소득이 줄어든 비중은 전체 가구의 15%를 넘지 않는다. 72% 가구의 노동소득이 줄었다는 조선의 분석과는 큰 괴리가 있다. 


노동소득이 있는 가구의 비율도 2017년 1분기 32.1%에서 2018년 1분기 33.2%로 1%포인트 정도 늘었다. 최저임금이 일자리를 줄이면 노동소득이 있는 가구가 줄어야 하는데, 그런 효과가 보이지 않는다. 


노동소득만으로 분석하면 자영업자들이 빠져서 부당하다고 주장할 것이다. 그래서 노동소득과 자영업자들의 사업소득을 합쳐서 노동과 사업으로 벌어들인 돈(=earnings)으로도 분석해 보았다. 그랬더니 2017년 1분기 대비 2018년 1분기에 소득이 줄어든 집단은 하위 5%~13%사이로 노동소득만으로 분석할 때 보다 소득이 줄어든 비중이 더 줄어든다.   


즉, 70%에 이르는 가구에서 노동소득이나 사업소득이 줄어든 것이 아니라 90% 이상의 절대 다수의 가구에서 노동소득과 사업소득을 합친 경제활동 소득이 늘었다. 90%의 노동자의 소득이 늘었다는 문통의 발언과 일치한다. 


조선의 분석과는 완전히 다른 결과다. 





그렇다면 왜 2/3 가구의 총소득이 줄었을까? 


다수 가구에서 총소득이 줄어든 가장 큰 이유는 노동소득이나 사업소득의 감소 때문이 아니라 보험금, 퇴직금, 경조사비 등의 비경상소득 감소 때문이다. 2017년 1분기에는 전체 가구의 비경상소득 평균이 17.5만원에 달했는데, 2018년 1분기에는 비경상소득 평균이 3.8만원, 1/5로 줄었다. 


왜 비경상소득이 이렇게 줄었는지는 잘 모르겠다. 2017년에 가계동향조사의 방법이 바뀌었는데 새로운 방법을 론칭하면서 뭔가 콘트롤이 제대로 안되었을 수 있다. 조사방법론이 바뀔 때 몇 개 항목의 자료가 튀는 일은 비일비재하다. 


2014~2015년에는 비경상소득이 있는 가구가 전체 가구의 15% 정도 밖에 안되었는데, 2017년 1분기 에는 50%가 넘는 가구가 비경상소득이 있다. 2017년 1분기에 이상하게 많은 가구가 비경상소득이 있었다. 2018년 1분기에는 비경상소득이 있는 가구는 15% 내외로 정상적인 범위로 줄었는데, 비경상소득의 액수는 과거보다 크게 줄었다. 데이타가 불안정하다. 


2018년에 가구 소득이 줄어든 가구가 늘어난 두 번째 이유는 가구당 가구원수가 줄었기 때문이다. 2017년에는 가구당 평균 2.54명이었는데, 2018년에는 2.48명이다. 가구원수가 줄었기 때문에 가구당 평균 소득이 다소 줄어든다. 


가구원수 효과를 조정하면 2018년에 전체 소득이 줄어든 가구는 60%로 줄어든다. 소득이 줄어든 가구 늘어난 것 중 7%포인트 정도는 가구수 효과다. 


한가지 유념할 것은 가구소득과 가구원수는 정의 상관관계를 가진다는 것이다. 소득 하위 20%의 가구원수는 2018년 현재 평균 1.35명이지만, 소득 상위 20%의 가구원수는 평균 3.34명이다. 가구원수가 많은 가구는 같은 돈을 여러 명이 나눠쓰기에 소득이 높은 만큼 생활수준이 높은 것이 아니다. 이 때문에 불평등 지니계수는 가구소득이 아닌 가구원수 효과를 조정한 균등화소득을 쓴다.  






조선은 왜 틀렸는가? 


가장 큰 이유는 가중치 적용을 안했기 때문으로 보인다. 2017년에 가계동향조사 조사방법을 바꾸면서 2017년과 2018년의 샘플사이즈가 상당히 바뀌었다. 2018년에 샘플사이즈가 늘었는데, 샘플사이즈 증가가 소득계층에 상관없이 랜덤하게 늘었으면 가중치를 주지 않아도 두 개 연도의 상대적 비교에 문제가 없지만, 2018년에 늘어난 샘플이 저소득층 가구에 집중되면 가중치를 제대로 주지 않으면 결과가 편향된다. 


실제로 가중치를 주지 않고 분석을 해보니 조선과 꽤 유사한 결과가 도출된다. 소득이 줄어든 가구가 73%로 조선과 일치한다. 


노동소득만으로 가중치 없이 분석한 결과 노동소득이 줄어든 가구가 50% 넘게 나온다. 조선의 72%와는 상당한 차이가 있는데, 왜 이렇게 차이가 나는지는 조선일보의 구체적 분석방법론을 몰라서 정확히 알 길이 없다.  


여기까지는 그래도 이해가 되는데 가구주가 노동자인 경우만 놓고 노동소득을 분석해보면 조선의 분석이 어떤 자료에 기반한 것인지 도저히 알 수가 없다. 


조선 기사에 따르면, 

가계 총소득이 아닌 가계 근로소득을 기준으로 비교했을 때도 결과는 비슷했다. 근로소득 상위 28.1%에 속한 가구들의 소득만 늘었다. 나머지 71.9%의 가구들의 근로소득은 뒷걸음질쳤다. 근로자인 가구주만 비교해도 마찬가지였다. 상위 23.0%만 급여가 늘고 나머지 77.0%는 줄었다.


위 기사를 내가 해석하기로는 가구주가 근로자인 경우(=상용근로자, 임시근로자, 일용근로자)의 노동소득을 분석한 것하다. 하지만 2018년 가계동향조사는 가구주의 소득을 노동소득과 사업소득을 구분하지 않고 제공한다. 반면 2017년 가계동향조사는 사업소득과 분리가 되어 있다. 두 개 연도를 직접 비교할 수 없다. 


내가 가중치를 주고 계산한 바에 따르면 2017년 가구주의 사업소득을 노동소득과 합쳐서 계산하든 분리해서 계산하든 노동자 가구주의 노동소득은 99% 가구에서 상승한다. 도대체 조선은 어떻게 분석했길래 노동자 가구의 77%에서 급여가 줄어든 것으로 결과가 나온 것인가? 


노동소득이 0인 가구도 포함해서 분석한 것일 수도 있고, 노동자 가구주의 노동소득이 아닌 가구 전체 소득을 분석했을 수도 있다. 분석 자료가 다를 가능성도 배제할 수 없다. 2017년 1분기 표본 가구는 4,415개로 조선의 기술과 일치하는데, 2018년 1분기 표본 가구수는 내가 다운받은 자료에서는 6,610개로 표본수가 6,115개라는 조선의 기술과는 다르다. 조선에서 사용한 systematic sampling으로 일부 표본을 배제하는 과정에 어떤 편향이 있었을 가능성도 있다. 






결론적으로 2018년 문재인 정부 1년 만에 대다수 가구에서 소득이 줄었다는 통계는 가계동향조사의 방법론을 바꾸면서 생겨난 데이타의 불안정을 보수진영이 과장하고 가중치를 제대로 주지않는 잘못된 분석으로 생겨난 해프닝일 가능성이 크다. 


데이타를 분석한 정부 연구기관에서 제대로 된 분석을 다시 내줄 것을 기대한다.   





Ps. 


부탁말씀: 위 분석에 오류를 발견하면 알려주십시오. 


Pps. 


가계동향조사의 Weight 변수는 1개의 샘플이 대표하는 전체 가구의 수다. 많은 사람들이 사용하는 SPSS 프로그램에 이 가중치 변수를 조정하지 않고 적용하면 한국의 전체 가구수로 projection 된다. 이 가중치는 복잡한 샘플링 기법에 따른 표본추출 확률에 따라 계산한 것이다. 가계동향조사 같은 자료로 분석할 때는 대표가구수로 주어진 원자료 가중치로 부터 추출 확률를 역으로 계산하고, 이의 역수로 새롭게 가중치를 줘야 한다.

Posted by 바이커 sovidence