가중치를 잘못주면 망하는 이유

인구 통계 2018. 6. 8. 01:53

작년 불평등학회에서 가중치에 대한 특강을 한 적이 있다. 하기는 했는데, 어떤 부분을 강조하고 설명해야할지 잘 몰랐다.

강의 끝나고 Q&A 시간에 질문을 받고서야 내 강의가 잘못되었다는 것을 깨달았다. 강의를 하면서 가중치가 계수 측정에 끼치는 효과는 모두 이해하고 있다고 가정하고, 몇 가지 가중치 부여법에 따라 표준오차 측정이 어떻게 달라지는지만 잔뜩 설명했다. 질문을 받고 보니 가중치가 계수 측정에 끼치는 영향부터 설명했어야 했다.

조선비즈 조귀동 기자의 분석이 잘못된 이유 중 하나는 가중치에 대한 이해의 부족 때문이다. 본인은 그거 전부 안다고 주장하는 것 같은데, 아는 분이 왜 그렇게 했는지...

이 기회에 작년에 잘하지 못한 특강을 만회키 위해 가중치를 잘못주면 어떻게 망하는지 쉬운 예를 들어 설명하고자 한다.

아래 표1이 두 기간 (Time 0, Time 1) 동안의 소득 샘플과 가중치라고 치자. 두 기간 동안 소득 분포에는 전혀 변화가 없는데, Time 0에서는 고소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다. Time 1에서는 저소득층 복지 정책을 보다 정확히 실행하기 위해 최저소득층이 2명 샘플링되고, 나머지는 1명씩 샘플링되었다.

두 기간 동안 소득 분포에 아무런 변화가 없지만 샘플링에만 변화가 있었다는 것. 이 경우 가중치는 아래와 같이 time 0에서는 고소득층에 낮은 가중치를 time 1에서는 저소득층에 낮은 가중치를 준다. 가중치를 주어서 평균을 계산하면 두 기간의 평균과 분포가 모두 똑같아 진다.

표 1. 소득 샘플과 가중치

rank	T0 - 소득	가중치	T1 - 소득	가중치
1	10	1.0	10	0.5
2	20	1.0	10	0.5
3	30	1.0	20	1.0
4	40	1.0	30	1.0
5	50	1.0	40	1.0
6	60	1.0	50	1.0
7	70	1.0	60	1.0
8	80	1.0	70	1.0
9	90	1.0	80	1.0
10	100	0.5	90	1.0
11	100	0.5	100	1.0

위의 경우에 가중치를 주어서 다시 계산하면 소득 분포가 아래 표 2와 같이 된다. 보다시피 두 기간 동안 소득이 줄어든 계층은 아무도 없다. 당연하지 않은가. 두 기간 동안 소득 분포에 변화가 없이 고소득층과 저소득층의 over-sampling 방법만 바꾸었으니까.

표 2. 가중치를 주어서 조정한 샘플로 소득 변화를 측정한 경우

rank	T0 - 소득	T1 - 소득	T1-T0 격차
1	10	10	0
2	20	20	0
3	30	30	0
4	40	40	0
5	50	50	0
6	60	60	0
7	70	70	0
8	80	80	0
9	90	90	0
10	100	100	0

그런데 위 표1에서 가중치를 조정하지 않고 percentile rank를 계산하면 아래 표3과 같은 결과가 나온다. 두 기간 동안 소득이 줄어든 비율이 8/11, 즉 73%가 나오게 된다. 소득 분포에 아무런 변화가 없음에도 가중치를 이해하지 못하면 73% 국민의 소득이 줄어들었다는 놀라운 결과가 나오게 된다.

표 3. 가중치 없이 소득 변화를 측정한 경우

rank	T0 - 소득	T1 - 소득	T1-T0 격차
1	10	10	0
2	20	10	-10
3	30	20	-10
4	40	30	-10
5	50	40	-10
6	60	50	-10
7	70	60	-10
8	80	70	-10
9	90	80	-10
10	100	90	-10
11	100	100	0

실제로 가계동향조사는 2018년에 표본수를 늘리면서 소득이 낮은 노인가구를 확대하는 쪽으로 샘플링이 개편되었다고 알려져 있다. 가중치를 제대로 적용하지 않으면 위에서 예를 든 것과 같은 효과가 나타나게끔 되어 있다.

다른 통계보다 특히 percentile rank 는 가중치 부여 여부에 민감하다. 소득 최하층이나 고소득층이 over-sampling되는데 가중치를 제대로 부여하지 않으면 전체 percentile rank 가 엉망으로 되어버린다.

이 문제에 대해서 좀 더 심각했던 논쟁은 요즘 사회과학계의 신성 Chetty 등이 사용하는 소득 rank order에 대해서 Yu Xie 교수가 제기한 문제다. 소득 측정에 error가 있는데 한 응답자의 소득이 잘못측정될 경우 rank order로 측정하면 최소 2명 응답자의 rank order에 오류가 발생한다는 것이다. 최소 2명이고, 측정오차가 크면 rank order는 더 크게 영향을 받는다. 즉, rank order는 측정오차에 대해 민감하기 때문에 Chetty 등의 방법론은 측정 오차에 더 민감해서 reliability가 떨어진다는 비판이다.

미국 서베이로는 SIPP이 복지 혜택을 받는 저소득층이 over-sampling 되어 있다. 가중치를 주지 않으면 소득이 낮게 추정된다. 또 다른 예로 대졸자 서베이인 NSCG는 아시안이 over-sampling 되어 있다. 아시안의 과학기술편중이 심하고 이들의 소득이 높기 때문에 가중치를 주지 않으면 결과가 엉망이 된다.

저작자표시 비영리 변경금지 (새창열림)

Posted by sovidence

SOVIDENCE

가중치를 잘못주면 망하는 이유

최근에 달린 댓글

카테고리

티스토리툴바


	바이커의 무작위 사회관찰: Sociological Evidence by sovidence