작년 불평등학회에서 가중치에 대한 특강을 한 적이 있다. 하기는 했는데, 어떤 부분을 강조하고 설명해야할지 잘 몰랐다.
강의 끝나고 Q&A 시간에 질문을 받고서야 내 강의가 잘못되었다는 것을 깨달았다. 강의를 하면서 가중치가 계수 측정에 끼치는 효과는 모두 이해하고 있다고 가정하고, 몇 가지 가중치 부여법에 따라 표준오차 측정이 어떻게 달라지는지만 잔뜩 설명했다. 질문을 받고 보니 가중치가 계수 측정에 끼치는 영향부터 설명했어야 했다.
조선비즈 조귀동 기자의 분석이 잘못된 이유 중 하나는 가중치에 대한 이해의 부족 때문이다. 본인은 그거 전부 안다고 주장하는 것 같은데, 아는 분이 왜 그렇게 했는지...
이 기회에 작년에 잘하지 못한 특강을 만회키 위해 가중치를 잘못주면 어떻게 망하는지 쉬운 예를 들어 설명하고자 한다.
아래 표1이 두 기간 (Time 0, Time 1) 동안의 소득 샘플과 가중치라고 치자. 두 기간 동안 소득 분포에는 전혀 변화가 없는데, Time 0에서는 고소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. Time 1에서는 저소득층 복지 정책을 보다 정확히 실행하기 위해 최저소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다.
두 기간 동안 소득 분포에 아무런 변화가 없지만 샘플링에만 변화가 있었다는 것. 이 경우 가중치는 아래와 같이 time 0에서는 고소득층에 낮은 가중치를 time 1에서는 저소득층에 낮은 가중치를 준다. 가중치를 주어서 평균을 계산하면 두 기간의 평균과 분포가 모두 똑같아 진다.
표 1. 소득 샘플과 가중치
rank |
T0 - 소득 |
가중치 |
T1 - 소득 |
가중치 |
1 | 10 | 1.0 | 10 | 0.5 |
2 | 20 | 1.0 | 10 | 0.5 |
3 | 30 | 1.0 | 20 | 1.0 |
4 | 40 | 1.0 | 30 | 1.0 |
5 | 50 | 1.0 | 40 | 1.0 |
6 | 60 | 1.0 | 50 | 1.0 |
7 | 70 | 1.0 | 60 | 1.0 |
8 | 80 | 1.0 | 70 | 1.0 |
9 | 90 | 1.0 | 80 | 1.0 |
10 | 100 | 0.5 | 90 | 1.0 |
11 | 100 | 0.5 | 100 | 1.0 |
위의 경우에 가중치를 주어서 다시 계산하면 소득 분포가 아래 표 2와 같이 된다. 보다시피 두 기간 동안 소득이 줄어든 계층은 아무도 없다. 당연하지 않은가. 두 기간 동안 소득 분포에 변화가 없이 고소득층과 저소득층의 over-sampling 방법만 바꾸었으니까.
표 2. 가중치를 주어서 조정한 샘플로 소득 변화를 측정한 경우
rank |
T0 - 소득 |
T1 - 소득 |
T1-T0 격차 |
1 | 10 | 10 | 0 |
2 | 20 | 20 | 0 |
3 | 30 | 30 | 0 |
4 | 40 | 40 | 0 |
5 | 50 | 50 | 0 |
6 | 60 | 60 | 0 |
7 | 70 | 70 | 0 |
8 | 80 | 80 | 0 |
9 | 90 | 90 | 0 |
10 | 100 | 100 | 0 |
그런데 위 표1에서 가중치를 조정하지 않고 percentile rank를 계산하면 아래 표3과 같은 결과가 나온다. 두 기간 동안 소득이 줄어든 비율이 8/11, 즉 73%가 나오게 된다. 소득 분포에 아무런 변화가 없음에도 가중치를 이해하지 못하면 73% 국민의 소득이 줄어들었다는 놀라운 결과가 나오게 된다.
표 3. 가중치 없이 소득 변화를 측정한 경우
rank |
T0 - 소득 |
T1 - 소득 |
T1-T0 격차 |
1 | 10 | 10 | 0 |
2 | 20 | 10 | -10 |
3 | 30 | 20 | -10 |
4 | 40 | 30 | -10 |
5 | 50 | 40 | -10 |
6 | 60 | 50 | -10 |
7 | 70 | 60 | -10 |
8 | 80 | 70 | -10 |
9 | 90 | 80 | -10 |
10 | 100 | 90 | -10 |
11 | 100 | 100 | 0 |
실제로 가계동향조사는 2018년에 표본수를 늘리면서 소득이 낮은 노인가구를 확대하는 쪽으로 샘플링이 개편되었다고 알려져 있다. 가중치를 제대로 적용하지 않으면 위에서 예를 든 것과 같은 효과가 나타나게끔 되어 있다.
다른 통계보다 특히 percentile rank 는 가중치 부여 여부에 민감하다. 소득 최하층이나 고소득층이 over-sampling되는데 가중치를 제대로 부여하지 않으면 전체 percentile rank 가 엉망으로 되어버린다.
이 문제에 대해서 좀 더 심각했던 논쟁은 요즘 사회과학계의 신성 Chetty 등이 사용하는 소득 rank order에 대해서 Yu Xie 교수가 제기한 문제다. 소득 측정에 error가 있는데 한 응답자의 소득이 잘못측정될 경우 rank order로 측정하면 최소 2명 응답자의 rank order에 오류가 발생한다는 것이다. 최소 2명이고, 측정오차가 크면 rank order는 더 크게 영향을 받는다. 즉, rank order는 측정오차에 대해 민감하기 때문에 Chetty 등의 방법론은 측정 오차에 더 민감해서 reliability가 떨어진다는 비판이다.
미국 서베이로는 SIPP이 복지 혜택을 받는 저소득층이 over-sampling 되어 있다. 가중치를 주지 않으면 소득이 낮게 추정된다. 또 다른 예로 대졸자 서베이인 NSCG는 아시안이 over-sampling 되어 있다. 아시안의 과학기술편중이 심하고 이들의 소득이 높기 때문에 가중치를 주지 않으면 결과가 엉망이 된다.