아래 어떤 분이 다음과 같은 답글을 달았음: 


"‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까."


연속 샘플을 이용한 이우진 교수의 결과와 전체 샘플을 이용한 통계청의 결과가 다른 이유는 소득이 오르고 기분이 좋은 사람만 계속 가계동향조사에 응하고 그렇지 않은 사람은 표본에서 탈락하기 때문이라는 것. 충분히 의심해 볼만 지적이고, 제 글에 문제가 있다고 비판하는 전문가 분들도 아마 이 점을 염두에 두고 있을 것으로 추정됨. 


논의가 논의이다 보니 어쩔 수 없이 자꾸 전문 용어 쓰게 되는데, 이렇게 패널조사에서 계속 남는 사람들은 탈락한 사람과 달리 살람살이가 좋아졌다던가 등의 뭔가 편향이 있다는걸 panel conditioning bias라고 함. 


그런데 이 논리에는 두가지 생각해볼 점이 있음. 


예를 들어 전체 인구로 보면 소득이 10% 줄었는데, 소득이 10% 오른 사람은 패널에 남았다고 가정해 보자. 이 경우 연속 패널이 2/3이고, 신규 패널이 1/3이면, 


(A) 전체 소득 증가율 = 0.10*2/3 + (-0.10)*1/3 = +0.033


소득이 3.3% 오른걸로 나옴. 


하지만 다른 모든 조건은 동일한데 연속 패널이 1/3이고, 신규 패널이 2/3로 패널 구성만 바꾸면, 즉 전체 인구로보면 소득이 10% 줄어든 상황은 동일한데, 패널의 구성만 바뀌었다고 치면, 


(B) 전체 소득 증가율 = 0.10*1/3 + (-0.10)*2/3 = -0.033


소득이 3.3% 줄어든걸로 바뀜. 


(A)나 (B)나 실제 변화를 정확히 반영하지 못하는 것은 마찬가지지만, 패널 구성에 변화만 없다면 시계열적 변화로 변화의 방향을 판단할 수는 있음. 하지만 패널 구성이 변화하게 되면 실제 변화와 패널 구성 변화가 혼재되어 버림. 


제 글에 가중치 문제 제기하는 분들이 많은데, 패널 콘디셔닝이 있을 때 신규패널과 연속패널의 구성을 바꾸면 가중치를 완전히 바꾸는 효과가 있음. 이 경우 패널 구성의 큰 변화가 있을 때 시계열적 변화는 의미가 없어짐. 


따라서 이우진 교수의 연속 샘플에서 저소득층의 소득이 올라간 것으로 나온 결과는 가계동향조사의 연속샘플의 어떤 선택 편향이 있는걸 고려하지 않아서 나타난 잘못된 결과라고 주장하는 사람들도 이우진 교수의 결론인 올해의 가계동향조사의 연도별 비교는 의미가 없다라는 주장에는 동의해야 정상임. 그런데 이 분들은 패널 콘디셔닝 문제를 암시하면서 이우진 교수가 틀렸고, 통계청의 기존 발표에 문제가 없다는 식으로 주장하고 있음. 





만약 연속 샘플과 전체 샘플에 차이가 없다면 이런 문제는 없음. 그 때문에 이우진 교수는 연속 샘플과 전체 샘플의 격차를 검증해 본 것. 이 논리를 모르고 연속 샘플과 전체 샘플은 다르다는, 통계를 제대로 이해하는 사람들 끼리 보면 기초적 지식에 해당하는 주장만 되뇌이면 곤란. 


또한 이우진 교수가 가중치를 제대로 적용하지 않았을 수도 있음. 이건 이우진 교수가 답해야 할 것. 헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임. 





다음으로 2017년과 올해 사이에 panel conditioning bias가 특이하게 컸다고 생각할 수도 있는데, 이 경우 2017년 가계동향조사의 샘플의 저소득층  attrition rate이 다른 해보다 유난히 컸어야 함. 이는 가계동향조사 샘플의 attrition에 정보를 모두 가지고 있는 통계청에서 바로 확인 가능함. 




어떤 경우가 맞는건지, 패널에 대한 변수가 제대로 있어야 검증할 수 있는데, 통계청에서는 일반 공개 원자료에서 이러한 bias를 알 수 있는 정보를 전혀 제공하지 않음. 


통계청에서 학자들이 가중치를 제대로 안줄까봐 원자료 제공을 꺼린다는데, 원자료를 공개하고 다수 학자들이 이를 쓰게하면 그 전에는 몰랐던 새로운 사실과 문제점을 알게되고, 이런 문제점을 개선하다보면 통계의 품질이 올라감. 한국에서 통계 품질 개선이 더딘 이유 중의 하나가 원자료를 공개하지 않아서 문제가 어디에 있는지 제대로 파악하지 못하는 것임. 


뭐 그래서 저의 결론은 항상 동일. 변수를 숨기지 말고 원자료를 공개합시다~

Posted by 바이커 sovidence