조선일보 기사: 이준석 대표 당선 후, 20대女 국민의힘 지지율 1%…野 “표본수 적은 탓”

 

더불어민주당의 20대 여성 지지율은 27.6%. 

 

조선 기사를 보면, 국민의힘 쪽의 설명은, "위 조사의 20대 여성 표본수는 57명이다. 이때 오차범위는 13.9% 이상에 달한다. 즉 0%에서 27.8% 사이의 지지율은 같거나 차이가 없다는 의미”

 

라고 하지만, 이런 주장이 맞을리가. 

 

표본수 57명에서 오차범위 ±13.9%는 교과서에서 배우는 계산법으로, 영어로는 asymptotic 방법에 근거할 것이다 (13.9%라는 숫자가 정확히 어디서 나왔는지는 모르겠다. 13.0%인데 착각한건가?). 우리말로는 어떻게 표현하는지 모르겠지만, 일종의 근사치로 계산하는 방식이다. 언론에 보도되는 오차범위는 일반적인 asymptotic 방식에 한 가지 조건이 더 붙는데 이는 비율이 50%일 때의 오차범위다. 이렇게 비율이 50%일 때의 오차범위를 최대표집오차(maximum sampling error)라고 하는데 일반적으로 그냥 표집오차라고 부른다. 정확한 표본비율의 오차는 (1) 표본수, (2) 신뢰범위, (3) 비율, 이 세가지에 영향을 받는다. 그 중에서 비율이 50%일 때 가장 크다.

 

이 번처럼 지지율이 1%가 되면 오차범위는 ±13.9%가 아니라 크게 줄어든다. 조사회사에서 일반적으로 보고하는 표집오차 계산법(p = p-hat ± 1.96*sqrt(phat * qhat / n)에 따르면 57명 중 1명이 국힘을 지지해서 1.75%의 지지율이 나올 때, 95% 신뢰구간은 -1.65%에서 +5.16% 사이가 된다. 

 

그런데 보다시피 이 방법으로 계산하면 신뢰구간이 마이너스가 나온다. 이는 논리적으로 오류다. 마이너스 지지율은 없으니까. 지지율은 무조건 0~100% 사이가 되어야 한다. 

 

그래서 이렇게 표본수가 작고 지지율이 낮을 때 신뢰구간을 계산하는 방법이 따로 있는데, 이중에서 Wilson's Interval method라는 방법을 적용하면,  

 

20대 여성의 국힘당 지지율은 이 번 조사에 따르면 95% 신뢰수준에서 0.09% ~ 9.29% 사이다. 

Posted by sovidence
,