1700 vs 124 vs 2

인구 통계 2009. 6. 9. 22:42
서울대 교수 전체 1700명(자격요건에 따라 숫자는 달라지겠지만) 중, 124명이 명박정부를 비판하는 시국선언을 했고, 서울대 교수 2명이 시국선언을 비판하는 63개 대학 128명 중에 끼었다.

124명이나 2명이나 정치적 성향에서 바이어스된 샘플임에는 틀림이 없다. 이 둘을 두고 어느 쪽이 더 대표성이 높으냐고 논하는 것은 의미가 없다. 애초에 1700명 중에 124명 밖에 서명하지 않아서 의미가 없다고 한 청와대의 논평은 봉숭아 학당에서나 가능한 것이었다. 그럼에도 불구하고 어느 쪽이 학계의 분위기를 나타내는 시그널로 더 의미를 가지는지는 어렵지 않게 파악 가능하다.

기왕 대표성의 문제가 나왔으니 1700명이 모집단이고, 126 (124+2)명을 샘플로 혹시 무작위로 선발하면 표집오차는 얼마나 되는지, 2명이 특이하게 나오면 어떻게 처리해야 하는지 <순수 교육적 차원>에서 간단히 살펴보자. 통계 교육 강화의 필요성을 청와대 논평이 여실히 보여주지 않았던가.

1700명 모집단에 126 (124 + 2)명을 무작위로 추출하면, 95% 신뢰수준에서의 표집오차는

1.96 * sqrt [ p(1-p) / n * N /(N-n) ] 이다.

n = 126,  N=1700이므로 대략 +-9.1%의 최대표집오차를 가진다.

이 126명 중 2명은 1.6%다. 표집오차를 고려한, 이 들 특이성향 2명이 차지하는 비율에 대한 구간추정치는 95% 신뢰수준에서 0-4% 사이이다. 엄밀히 계산하면 negative 값이 포함되는데, 이렇게 작은 비율에 대해서는 보통 구간추정을 하지 않는다.

모집단의 특성을 파악할 때, 비율이 매우 적은 샘플이 평균을 크게 변화시킬 경우 이들을 outliers 산정하여 데이타에서 삭제하고 나머지 샘플에서 전체적인 경향을 보는 것도 한 방법이다. 아웃라이어가 포함되어서 전체적인 경향이 왜곡되게 보일 수 있지만, 특이성향 2 샘플을 제거하고 나머지 98.4% 샘플에서의 성향을 보는 것이 모집단의 특성 파악에 도움이 되기 때문이다.

아웃라이어를 삭제하나 그렇지 않으나 126명 샘플의 평균은 질적으로 차이가 없을 것이다. 그럼에도 불구하고 특이성향 2명의 샘플만 쳐다보고 전체 평균을 구하지 않는 학생들은... 한숨만 나온다.
Posted by sovidence
,