조선일보 기사: 이준석 대표 당선 후, 20대女 국민의힘 지지율 1%…野 “표본수 적은 탓”

 

더불어민주당의 20대 여성 지지율은 27.6%. 

 

조선 기사를 보면, 국민의힘 쪽의 설명은, "위 조사의 20대 여성 표본수는 57명이다. 이때 오차범위는 13.9% 이상에 달한다. 즉 0%에서 27.8% 사이의 지지율은 같거나 차이가 없다는 의미”

 

라고 하지만, 이런 주장이 맞을리가. 

 

표본수 57명에서 오차범위 ±13.9%는 교과서에서 배우는 계산법으로, 영어로는 asymptotic 방법에 근거할 것이다 (13.9%라는 숫자가 정확히 어디서 나왔는지는 모르겠다. 13.0%인데 착각한건가?). 우리말로는 어떻게 표현하는지 모르겠지만, 일종의 근사치로 계산하는 방식이다. 언론에 보도되는 오차범위는 일반적인 asymptotic 방식에 한 가지 조건이 더 붙는데 이는 비율이 50%일 때의 오차범위다. 이렇게 비율이 50%일 때의 오차범위를 최대표집오차(maximum sampling error)라고 하는데 일반적으로 그냥 표집오차라고 부른다. 정확한 표본비율의 오차는 (1) 표본수, (2) 신뢰범위, (3) 비율, 이 세가지에 영향을 받는다. 그 중에서 비율이 50%일 때 가장 크다.

 

이 번처럼 지지율이 1%가 되면 오차범위는 ±13.9%가 아니라 크게 줄어든다. 조사회사에서 일반적으로 보고하는 표집오차 계산법(p = p-hat ± 1.96*sqrt(phat * qhat / n)에 따르면 57명 중 1명이 국힘을 지지해서 1.75%의 지지율이 나올 때, 95% 신뢰구간은 -1.65%에서 +5.16% 사이가 된다. 

 

그런데 보다시피 이 방법으로 계산하면 신뢰구간이 마이너스가 나온다. 이는 논리적으로 오류다. 마이너스 지지율은 없으니까. 지지율은 무조건 0~100% 사이가 되어야 한다. 

 

그래서 이렇게 표본수가 작고 지지율이 낮을 때 신뢰구간을 계산하는 방법이 따로 있는데, 이중에서 Wilson's Interval method라는 방법을 적용하면,  

 

20대 여성의 국힘당 지지율은 이 번 조사에 따르면 95% 신뢰수준에서 0.09% ~ 9.29% 사이다. 

Posted by sovidence

댓글을 달아 주세요

  1. 2021.07.08 21:48  댓글주소  수정/삭제  댓글쓰기

    ㅋㅋㅋ 남녀 가치관 격차 진짜 심하네

    • Sidus 2021.07.08 22:15  댓글주소  수정/삭제

      사실 가치관 격차가 없었어도 국민을 반으로 나누고 정당한 이유 없이 한쪽 의견만 과대표 시켜주면 지지는 벌어지겠죠....

  2. Spatz 2021.07.08 22:30  댓글주소  수정/삭제  댓글쓰기

    완전히 조선일보 담당이 되버리셨군요 (?) 뭐 헛소리를 하루이틀 하는 게 아니긴 합니다만

    • 바이커 2021.07.08 22:38  댓글주소  수정/삭제

      그럴려는 의도는 전혀 없는데 어쩌다 그렇게 되버리는 모양새네요.

      국힘 관계자의 말을 따는건 당연하지만, 정확한 설명도 추가해야지, 언론에서 잘못된 정보만 전달하면 어쩌자는건지 모르겠습니다.

  3. kuy 2021.07.09 04:20  댓글주소  수정/삭제  댓글쓰기

    한 개 기관의 여론조사만 가지고 주어진 한 시점에서 이대녀 지지율이 몇 프로냐 보는 것보다는 추세를 보는 게 더 의미가 있을 것 같은데,

    https://www.gallup.co.kr/gallupdb/reportContent.asp?seqNo=1223
    위 링크의 한국갤럽 보고서 보면, 6월 4개주 여론조사 통합해서 300명 표본으로 본 결과는 20대 여성 국민의힘 지지율이 8%로 나옵니다. 새 당대표가 당선된 5월 여론조사로는 9%라서, 별 의미있는 추세가 있는 것 같지 않네요..

    https://www.nesdc.go.kr/files/result/202107/FILE_202103150705455690.pdf.mobile.xhtml
    지지율 1% 나온 여론조사 기관인 글로벌리서치가 이전에 가장 마지막으로 실시했던 2월 말 정당지지도 조사 기준으로는, 20대 여성 236명 표본에 6.4% 지지율이 나와서, 단순 비교 하면 지지율이 감소하긴 했지만,
    한국갤럽 월별 조사 기준으로는 같은 기간 오히려 다소 오른 편(2월 3% -> 3월 7% -> 4월 8% -> 5월 9% -> 6월 8%)이라
    뭐 일관된 추세가 있다고 말하기 어려워 보입니다.

    여가부, 할당제 논란 따위로 국민의힘을 비토할 20대 여성은 애초에 국힘을 지지하지 않았을 가능성이 높고, 애초 지지율이 높은 편이 아니었기 때문에 최근 일련의 반페미니즘 행보가 이대녀 지지율 변화에는 썩 의미있는 영향을 주지는 않을 것 같아요.

  4. 우물정 2021.07.09 04:44  댓글주소  수정/삭제  댓글쓰기

    여론조사의 해석 관련해서 좋은 글이라고 생각해서 이 글을 주변에 소개하면서 검증 계산도 한 번 해 보다가 발견했는데, 0.09% ~ 9.29%가 한 쪽은 continuity correction이 된 것 같고 다른 한 쪽은 안 된 것 같습니다. continuity correction을 안 한 95% CI는 제 계산으로는 0.31% ~ 9.29%, 한 95% CI는 0.09% ~ 10.63%로 나오는데요, 제가 통계를 전문으로 하지는 않기 때문에 이 둘을 섞는 것이 통계적으로 정당화되는지는 잘 모르겠습니다. Wilson's interval online으로 구글에서 검색하면 맨 앞에 나오는 Epitools가 저런 식으로 나오긴 하는데 그렇게 나오는 사이트는 거기 밖에 없는 것 같아서 해당 사이트나 R 라이브러리 쪽에 연원이 있는 것 같아 보이긴 합니다만, 소스 코드도 없으니 검증할 방법도 없고 해서 염치 불구하고 여쭤 봅니다.

    • 바이커 2021.07.09 08:44  댓글주소  수정/삭제

      저는 R에서 Hmisc의 binconf를 사용했는데, correction안할 걸로 직접 계산해보니 말씀하신대로 0.31%~9.19%로 나오네요.

      저도 Hmisc에서 둘을 섞은 정확한 이유는 잘 모르겠습니다. 값이 0이나 1에 아주 가까울 때만 correction을 적용하도록 프로그램 된 것 같습니다. Agresti 논문에 근거해서 Wilson's interval을 default로 제공한다는 것 이상의 정보가 없네요.

    • 우물정 2021.07.09 11:01  댓글주소  수정/삭제

      확인해 주셔서 감사합니다. 말씀 듣고 Hmisc 소스 코드(https://github.com/harrelfe/Hmisc/blob/master/R/binconf.s)와 Agresti 논문을 비교해 보고 나서 왜 그런지 알게 되었습니다.

      binconf가 반환하는 값은 본래는 correction이 안 된 interval입니다. 그런데 Agresti 논문(4장 맨 마지막에 언급됩니다)에서 coverage probability를 높이기 위해 성공이나 실패가 단 한 번 있었을 경우 대안으로 제시하는 별도 interval이 있어서 이것이 적용된 것입니다. (이를테면 성공이 한 번 뿐일 경우 lower bound가 -log(z)/n) corrected lower bound와 그 alternative lower bound가 거의 같은 값이라 제가 lower bound만 correct되었다고 착각했던 것이었고요.

    • 바이커 2021.07.09 11:22  댓글주소  수정/삭제

      자세한 설명 감사합니다! x=1 or x=n-1일 때 별도의 공식을 적용한걸 전혀 모르고 있었습니다. 덕분에 새로 배웠습니다.

  5. 솔라빔 2021.07.09 09:40  댓글주소  수정/삭제  댓글쓰기

    통계잘알 멋집니다 ㅎㅎ

  6. 리버럴 2021.07.10 05:04  댓글주소  수정/삭제  댓글쓰기

    얼마 전 재보궐 선거 국힘당이 압승하니까 무슨 지 자식이 고시 합격이라도 한 것처럼 흐ㅡ뭇해 하면서 대충 '이대남은 물론이고 이제 이대녀도 우리 쪽에 거의 넘어 왔다'는 주제로 일장연설을 하며 롤린롤린롤린거리던 분들이 좀 보이던데 다 망상이었나 봅니다.