구간 소득 자료를 이용한 분석
소득의 구간을 물어본 자료로 불평등을 분석하는건 보편적으로 이루어지는 일이다. 요즘이야 소득 자료가 상대적으로 풍부해져서 개인, 가구 상세 소득이 있었지, 옛날에는 그런 자료가 매우 귀했다. 그럼에도 불구하고 소득 불평등을 분석했다.
소득 구간을 객관식으로 물어본 자료를 grouped data라고 하는데, 예전에는 이런 자료를 이용한 불평등 분석이 대부분이었다. 국가 간 비교는 아직도 대부분 구간 소득 자료를 이용한다 (예를 들어 그 유명한 Milanovic의 논문들).
그럼 당연히 의문이 생긴다. 이런 자료로 불평등 분석하고 가족 배경 통제해도 문제는 없는걸까? 의문이 생긴다고 구간 소득 자료로 분석한 연구는 이상하거나 틀렸다고 페북에서 용감하게 주장하는 사람이 있는가 본데, 그런거 아니다. Davies & Shorrocks (1989)이 이미 한 세대 이전에 여기에 대해서 연구해서 Journal of Econometrics에 논문을 출간했다. 경제학 방법론 논문 한 편이라도 읽어본 사람이라면 이 저널의 의미가 뭔지 알거다. Shorrocks은 소득불평등 분해에서 자기 이름 붙은 방법론을 개발한 바로 그 사람이다.
이들의 시뮬레이션 결과, 구간 소득으로 측정한 불평등 정도와 상세 소득으로 측정한 불평등 정도에 거의 차이가 없었다. 소득의 구간이 5개 이상이면 "any bias present is relatively small"이다. 그러니 구간 소득으로 측정한 분석에 오류가 클거라는 조바심은 고이 접어두셔도 괜찮다.
그런데 구간 소득이 아니라 연속변수로 소득을 물어봐도 구간 소득으로 물어본 것과 유사한 효과가 발생하는데, 그건 바로 사람들이 소득을 반올림 내지는 내림해서 보고하기 때문이다. 월소득이 323만원이면, 걍 300만원 쯤으로 대답한다. 이런 식의 패턴 때문에 연속변수 소득도 특정 소득 지점에 쏠리는 현상이 나타난다. 그래서 소득 분포의 그래프(density graph)는 너무 금액 단위(bin)을 자세하게 나누면 그래프가 오히려 부정확해진다. 적절하게 구간으로 봐야 분포 그래프가 정확하다. 미국 세금 자료와 SIPP 자가 보고 소득의 격차를 연구하면서 직접 체크해보기도 했다 (예를 들면 요기, 요기).
구간 소득을 이용할 때 한 가지 이슈는 톱코딩이다. 예를 들어, 보통 100-200만원 사이면, 중위값이 150만원으로 코딩하면 되는데 (랜덤값을 부여하는 방법도 있다), 최고 응답 구간이 1천만원 이상일 때, 여기에 어떤 값을 줘야하는지 결정하기 어려울 수 있다. 1천만원은 하위값이라 부적당하고, 그 위의 값을 쓰려니 어느 값을 써야될지 막막하다. 이 주제도 당연히 많은 사람들이 연구했다.
보편적으로 쓰이는 방법은 상수를 곱하는거다. 불평등 연구하면 빼놓을 수 없는 David Autor 등도 톱코딩 소득은 1.3을 걍 곱했다. 또 다른 방법은 톱코딩 이하 소득분포를 감안해서 log normal distribution을 가정하는거다. 연도별로 구간 소득값이 같더라도, 조금씩 상위 소득으로 이동하면, log normal distribution의 톱코딩 변환값은 변화한다. 이 외에도 여러 방법이 있다. EPI에서 여러 톱코딩을 적용해서 불평등을 비교한 보고서를 낸 적도 있다. 미국 <Current Population Survey>에서 2010년에 톱코딩을 없애기 전에 모든 소득불평등은 톱코딩에 이런 식의 임의적인 조치를 취했다. 제가 GOMS 자료를 이용한 논문을 쓸 때 이 방법론들을 모두 적용해보고 결과에 차이가 없다는걸 확인했었다.
그러니 뭔가 의심이 들 때는 남들이 연구해놓은건 없는지 찾아보는게 좋다.