여론조사로 본 지지율 동향은 서울대 폴랩의 그래프를 보는게 가장 좋을 듯. 


이 자료에서 아쉬운 점은 방법론에 대한 좀 더 구체적인 설명이 없다는 것. 자세하게 언급할 필요는 없겠지만, lowess regression을 쓴다는 기초적인 정보 외에 조사회사별 가중치를 주는지, 전체 응답과 반드시 투표 간에 차이를 두는지, 표준오차 추정을 하는지 등등에 대한 정보를 줬으면 좋았을 것. 대학 연구소의 발표로써는 아쉬움이 있음. 





그건 그렇고 여론조사 결과를 믿어야 하나? 지난 총선에서 그렇게 황당하게 틀렸는데. 트럼프 당선도 틀렸고. 


그래서 2016년 총선에서 조사회사별 예측과 실제 결과를 모 조사회사 P사장님이 제공한 자료를 이용해 분석해 봤음. 


각 후보별 오차 계산은 무응답자나 지지후보 없음을 제외하고 예상득표율을 추정한 후, 실제득표율과의 편차를 본 것. 지난 총선과 관련해서 선관위에 등록된 541개 조사 결과를 바탕으로 분석해 보면, 다음과 같은 편향이 관찰됨. 


새누리당은 4%포인트 정도 과대계상되었고, 더민주는 4%포인트 과소계상, 국민의당은 2%포인트 과소계상. 그래서 전체적으로 각 후보별 오차의 절대값은 3.5%포인트 임. 


 

 새누리

더민주 

국민의당 

정의당 

무소속 

 편향

 +4.08

-4.12 

-2.03 

+0.11 

+2.33 


그런데 조사회사별로 조사 품질에 차이가 있음. 그래서 10개 이상 조사 수행 기록이 있는 회사 중에 오차와 적중률이 높은 5개 회사만 뽑아서 오차를 다시 계산해 봄. 


그랬더니 오차의 크기와 편향은 다음과 같음. 


 

 새누리

더민주 

국민의당 

정의당 

무소속 

 편향

 +2.72

-1.80

-2.82

+0.21

+2.39


보다시피 품질 하위 기관과 품질 상위 기관 사이에는 상당한 격차가 있음. 품질 하위 기관을 포함하면 8%포인트 이상 지지율에 편향이 관찰되지만, 품질 상위 기관만 보면 새누리와 더민주의 응답 편향은 4.5%포인트로 줄어듬. 


조사회사별로 특정 편향이 나타나는 것을 house effect라고 하는데, 지난 총선에서 더민주에 우호적인 편향을 보인 회사는 하나도 없음. 모든 여론조사회사가 새누리당은 과대계상, 더민주당, 국민의당은 과소계상하였음. 회사별로 정도차가 있을 뿐. 이 결과는 대선 여론조사 트렌드 예측에서 조사기관별로 가중치를 달리할 필요성이 있음을 의미함. 


이를 종합하면 완전히 폭망한 지난 총선에서의 여론조사도 일반적으로 계산하는 샘플링 오차의 범위를 심각하게 벗어나지 않음. 당시 조사에서 거의 모든 회사가 야당은 4-6%포인트 과소계상, 여당은 3-5%포인트 과대계상되는 편향이 있었음. 품질 우수 기관은 이 오차가 2-3%포인트에 불과. 그럼에도 불구하고 오차가 랜덤이 아니고 특정 방향으로 편향되어서 선거 예측의 완전 폭망을 야기함. 


이 결과의 또 다른 함의는 특정 조사회사가 조작을 하는게 아니라는 것. 대신 조사 전체를 편향되게 만드는 사회적이든 조사방법론이든 뭔가 요인이 있음. 개인적으로는 사회적 요인이 클 것으로 추측. 


트럼프가 당선된 미국 대선의 경우에도 트럼프와 클린턴의 전국 득표율은 정확히 예측하였음을 잊지말 것. 오차의 크기만 따지면 조사는 큰 문제가 없음. 오차의 방향이 편향되는게 문제지. 





이 번 대선에서 어떤 식의 편향이 나타날지는 알 수 없음. 과거의 경험으로 조심스럽게 예측해 본다면 여론조사가 항상 새누리당에게 유리하게 나오는 것이 아니라, 당시 사회적 분위기와 일치하는 정당과 후보에 우호적으로 편향되는 경향이 있는 듯 보임. 


그렇다면 이 번 대선에서 보수 후보의 지지율은 과소계상되고, 진보후보의 지지율은 과대계상될 가능성을 배제할 수 없음. 특히 보수 지지층이 사회적 분위기 때문에 조사 응답을 꺼려할 가능성이 상당함. 진보를 지지하는 젊은층보다 고연령 보수층에서 사회적 분위기와 여론조사 응답률에 상관 관계가 있을 가능성이 큼. 


하지만 설사 사회적 분위기 때문에 조사에 편향이 있더라도, 품질 상위 조사회사의 지지율 격차가 5-6%포인트 이상 벌어지면 조사 예측과 실제 결과가 다를 가능성은 낮다고 봐야 할 듯. 






ps. 이 자료로 논문쓰겠다고 했는데, 논문은 제쳐두고 블로그질만 하고 있으니ㅠㅠ


pps. 이상의 분석 경험에 비추어 최근 문제가 된 문재인이 안철수를 13.5%포인트 앞선다는 리얼미터 결과는 개인적으로 신뢰하지... 


ppps. 문재인이 안철수에 6%포인트 앞서는 폴랩의 현재 추세는, 어느 조사회사에서 어느 정도의 차이가 났는지 분석하고 과거 조사회사별 신뢰도를 이용해 조정하면 실제 격차가 6%보다 더 작을지 아니면 더 클지 추정해 볼 수 있음. 한국의 황당한 여론조사법 때문에 이 결과를 발표할 수 있을지는 모르겠지만. 

Posted by sovidence
,