한겨레 기사: 무당층에 야당표가 더 숨어 있다.

 

무응답 비율이 높을수록 야당지지자의 비율이 과소 평가 된다는 얘기. 매우-매우-매우 훌륭한 분석. 분석의 훌륭함에 비해서 기사가 덜 친절하게 쓰여져서인지 회자가 덜 되는 듯. 이 분석이 얼마나 훌륭한 분석인지 조금 썰을 풀고자 함. 

 

이 분석을 이용하면 무응답자의 비율에 따라서 야당과 여당의 조건부 지지율 격차의 평균을 계산할 수 있음. 예를 들어 무응답이 15%일 때, 여당보다 야당의 숨은표가 2%포인트 많다면, 여당이 2%포인트 미만으로 앞서는 선거구는 막상 뚜껑을 열면 승자가 바뀐다는 것.

 

(1) 현재 지지율, (2) 무응답 비율, (3) 무응답의 편향, 이 세 가지 정보를 취합하여 선거 결과를 더 정확히 예측할 수 있음. 

 

이걸 계산하는게 왜 중요한가? 그 이유는 지금까지 한국에서 여론조사가 틀렸던 이유를 정확히 파악하고, 그 개선 방법을 알려주기 때문. 예전에 2016년 총선이 끝나고 이 블로그에서 한 번 언급한 적이 있는데, 한국 여론조사는 오차의 크기가 문제가 아니라 오차의 방향, 즉 편향이 나타나는게 문제. 

 

선거 때면 매 번 보도되는 샘플수 1,000명에 표집오차 +-3.1%의 기준에서 계산하면 언론의 보도와 달리 한국의 선거 여론조사는 매우 정확함. 평균적으로 이 표집오차의 범위에서 벗어나는 경우가 많지 않음. 

 

문제는 표집오차는 무작위여야 하는데, 이상하게 특정 정당은 지지율이 과대 추정되고, 다른 정당은 지지율이 과소 추정된다는 것. 더욱 문제는 모든 선거에서 항상 체계적으로 그래 왔음. 

 

황당한 것은 매 번 틀리는데도 편향의 방향이 무엇인지, 편향의 정도는 어떻게 계산할 수 있는지 지금까지 제대로 된 연구가 없음. 한국에서 여론조사가 매 번 틀리는 이유가 이 편향의 방향과 크기 때문인데, 이걸 연구하는 사람이 없음. 그러니 매 번 똑같이 틀리는 것. 소잃었으면 외양간을 고치고 새로 송아지를 키워야 하는데, 소잃고 외양간도 안고침. 

 

그러면서 하는 얘기가 뜬구름잡는 숨은 표 논리, 아니면 김어준식으로 선거부정이니 뭐니. 그것도 아니면 여론조사 못믿는다는 다구리 기사. 

 

이러한 비과학적 분석에서 벗어나 제대로 숨은 표를 분석한 것이 바로 한겨레 신문의 보도. 한국 선거 여론조사의 결과가 편향되는 원인과 그 개선 방법을 찾아낸 것. 한겨레 분석의 가치는 실체적으로 매우 큼. 

 

이 방법론을 응용하면, 선거의 가장 중요한 결과인 여야가의 예상 의석수가 어떻게 되는지는 여론조사의 단순지지율에 의존해 계산하는 것보다 훨씬 더 정확히 추정할 수 있음. (잘못 아는 것일수도 있지만) 이렇게 추정해서 보도하는 것이 선거법에 위반되지도 않은 것으로 알고 있음. 개별 선거구 예측도 불가능한 것은 아니지만, 민감성이 높아서 보도는 불가능할 것. 한국 선거법상 그렇게 하기도 힘들고.

 

어느 나라나 여론조사는 응답의 비표집오차가 있음. 이 비표집오차는 여론조사의 잘못이 아님. 아마도 문화적 요인임. 예를 들면 민주주의 이전에는 야당을 지지한다고 공개적으로 얘기하지 못하는 뭐 그런거. 잘못이라면 문화적 요인은 무엇이고, 비표집오차의 방향과 정도는 어떻게 되는지, 어떤 다른 변수로 비표집오차의 정도를 추정할 수 있는지 체계적으로 연구해야 하는데 그런걸 안했던 것. 

 

과거에 여론조사 회사에 비해서 여의도연구소 같은 곳에서 선거 결과를 더 정확히 예측했는데, 다른 이유가 있는 것이 아님. 한겨레 분석과 같은 엄밀한 방법론은 아닐지라도 이 보도와 유사한 연구를 한 것.  

 

한겨레 분석을 수행한 분은 서울대 박종희 교수. 이 분 2012년 대선부터 이런 분석해서 결과를 정확히 예측했었음. 가히 한국 선거 분석의 최고봉. 

 

한겨레 신문은 기왕 시작한 거, 이 연구의 방법론을 적용해서 전체 판세를 메타 분석하는 기사를 쓸 것을 강력히 추천함. 단순 여론조사로 나오는 예상 의석수, 이 연구의 무응답자의 성향을 반영한 예상 의석수로 나눠서 예측해볼 수 있을 것. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 오랜팬 2020.04.02 17:13  댓글주소  수정/삭제  댓글쓰기

    그런데 이번부터는 안심번호를 써서 표본표집이 훨씬 좋아져 무응답의 영향이 적어지진 않을까요?

    • 바이커 2020.04.02 17:17  댓글주소  수정/삭제

      예전보다는 좋아지겠죠. 그런데 제가 듣기로 지난 지자체 선거 여론조사 결과를 보면 안심번호도 편향이 있습니다.

  2. 칼국수 2020.04.02 19:02  댓글주소  수정/삭제  댓글쓰기

    좋은 기사 소개해주셔서 감사합니다. 잠깐 드는 생각은 연령대와 지역에 따라서 오차의 정도가 차이가 날 가능성이 크지 않을까 하는. Kernel Estimation 같은 기법으로 연령대,지역 또는 다른 중요한 변수에 따라 변화하는 오차를 고려해서 보정하면 더 좋지 않을까 싶네요 (아마 이미 하고 계실수도).

    • 바이커 2020.04.02 20:48  댓글주소  수정/삭제

      동의합니다. 연령대는 입력해야 하는 데이터의 양이 크게 늘어서 모델에 적용하기 쉽지 않겠지만, 지역은 데이터만 쌓이면 어렵지 않게 모델에서 고려할 수 있을 것입니다.

  3. ㅇㅇ 2020.04.02 19:36  댓글주소  수정/삭제  댓글쓰기

    mbc에서 그나마 기관 편향을 고려해서 뭔가 분석하긴 하더군요.

    언급하신 무응답부분이 고려된거 같지는 않아보이긴 한데, 그래도 꽤나 잘 정리된듯 해서 자주 들어가봅니다.

    • 바이커 2020.04.02 20:46  댓글주소  수정/삭제

      아시겠지만 박종희 교수가 쓴 한국 여론조사 기관의 하우스효과에 대한 논문이 있습니다.

  4. ㅇㅇ 2020.04.03 19:13  댓글주소  수정/삭제  댓글쓰기

    그렇다면 교수님은 이번선거에서 야당이 이길거 같나요? 아니면 여당? 선거예측이 궁금합니다

    • 바이커 2020.04.04 10:54  댓글주소  수정/삭제

      잘 모릅니다. 여론조사 이상의 정보를 제가 가지고 있는게 아니니까요.

      다만, 과거의 패턴을 볼 때 여당지지도가 앞으로 추가 상승하지 않는 이상, 언론에서 예측하는 것보다는 야당의 득표가 많을 것으로 생각합니다.

  5. ㅇㅇ 2020.04.06 00:28  댓글주소  수정/삭제  댓글쓰기

    종편에서 어디 여론조사인지는 모르지만 응답자중 30%가 진보성향이라고 답했고 20%가 보수성향이라고 답했더군요. 나이든 유권자 층들은 그런걸 귀찮아 하는 경우가 많으니 어찌보면 당연한 거라고 볼 수 있겠습니다

    • ㅇㅇ 2020.04.06 00:41  댓글주소  수정/삭제

      거기에 두 보수 대통령이 법정구속 된 바 있으니 과거 어느때보다도 샤이보수층의 비중이 높은 선거가 되지 않을까 싶습니다.

  6. ㅇㅇ 2020.04.07 06:29  댓글주소  수정/삭제  댓글쓰기

    정부가 여론조사를 조작한다느니 하는 소리가 이것과 관련돼있겠군요. 그런 소리 자체가 실제 결과와 자신들의 경험 사이의 괴리 때문에 나온 걸테니까요...

  7. young026 2020.04.07 11:39 신고  댓글주소  수정/삭제  댓글쓰기

    저 한겨레신문 기사 얘기 보고 여기 생각이 나서 오랜만에 방문했습니다.^^;