표 1. 당선 확률 1 (보수적 예측, 조사 결과에 2-3%P 숨은 에러가 있다고 가정)

 

 문재인

 안철수

 4월 21일

 78.5%

 21.5%

 4월 20일

 76.6%

 23.4%

 4월 19일

 76.5%

 23.5%

 4월 18일

 72.2%

 27.8%



표 2. 당선 확률 2 (조사 결과에 숨은 에러가 없다고 가정)

 

 문재인

 안철수

 4월 21일

 90.9%

 9.1%

 4월 20일

 88.8%

 11.2%

 4월 19일

 88.3%

 11.7%

 4월 18일

 82.7%

 17.3%



표 3. 예상 득표율

 

 문재인

안철수 

홍준표 

유승민 

심상정 

 4월21일

 44.6%

 37.7%

 9.1%

 3.1%

 3.7%

 4월20일

 44.6%

 38.1%

 8.8%

 3.3%

 3.5%

 4월19일

 44.6%

 38.1%

 8.5%

 3.3%

 3.7%

 4월18일

 44.4%

 38.9%

 8.3%

 3.1%

 3.5%



* 2-3일에 한 번씩 업데 예정. 방법론을 조정함에 따라 예전에 추정했던 확률도 조금씩 바뀔 수 있음. 


* 21일 새벽 동아일보에 보도된 R&R 조사 포함. 





* 방법론


- 선관위 여론조사결과 등록 정보 중 마크로밀엠브레인, 한국리서치, 칸타코리아(구 미디어리서치+TNS), 코리아리서치, KSOI, R&R 결과만 사용하여 후보별 지지율 가중 평균을 구함. 이 조사기관들은 내가 가지고 있는 541개 2016년 총선 조사 결과 자료를 이용하여 조사지역, 대도시 여부를 통제한 후 회귀분석을 했을 때 오차크기가 상대적으로 작았던 기관들임. 아래 포스팅에서 얘기했듯 조사기관별로 특정 정당에 대한 편향은 보이지 않고 동일 방향의 오차편향이 있었음. 가중치는 최근 3일 내 조사에 45%, 3일이 경과한 이 번 주 조사는 35%, 그 전 주 결과는 20% 반영함.  


- 예상 득표율은 이 가중평균에서 무응답을 빼고 100%로 환산한 것. 


- 당선 확률 추정은 두 단계로 이루어짐. 


우선, (1) 최근 2주간 조사의 지지율 가중 표준편차에 (2) 지난 총선 자료의 오차 평균을 임의로 더하고, (3) 홍준표 후보 지지표, 무응답 비율에 따른 지지율 변동 가능성을 추가하여, 임의의 표준편차를 구함.  


그 다음, 예상 득표율과 표준편차를 이용하여 문재인, 안철수의 득표 예상치를 10,000회 시뮬레이션함. 예상 득표율 분포는 정규분포라고 가정함. 두 후보의 득표율 시뮬레이션 예상치를 랜덤하게 매치하여 각 후보가 승리하는 비율을 구함. 이 비율로 당선 확률을 추정. 


- 당선 확률 1 vs. 당선 확률 2


위 표에서 당선 확률 1은 아래 포스팅에서 얘기한 총선 자료의 오차 평균(2-3%)을 임의로 더한 것이고, 당선 확률 2는 더하지 않은 것. 4월19일 현재의 오차 계산에서 당선 확률 1은 10%포인트 격차가 벌어지면 승리 확률이 대략 90%대 초반, 당선 확률 2는 97-99%가 나오도록 설계. 




* 주의사항


- 이 방법론은 학문적 근거가 전혀 없음. 2시간 자료찾고 30분 생각해서 4줄짜리 프로그램 돌려서 계산한 것. 심심풀이 땅콩, 흘려듣는 가십으로 여기면 딱임. 2012년 대선의 박종희 교수와 같은 noble한 시도가 전혀 아님. 


- 제대로 할려면 어떤 시뮬레이션이든 과거 데이타를 이용해서 대충이라도 들어맞는지 분석해봐야 함. 하지만 과거 대선 데이타도 없고, 그런 걸 하고자하는 의지도 없음. 


- 지난 미국 대선에서 보았듯 시뮬레이션은 엄밀한 과학이 아님. 예상 득표율은 조사 결과를 반영할 수 밖에 없음. 아무리 재주를 부려도 여론조사 결과가 잘못되면 제대로 예측할 수 있는 방법이 없음. 여러 조사의 평균은 실제 결과를 반영한다는 통계적 믿음이 있을 분.  


- 유일하게 할 수 있는게 Nate Silver가 보여주었듯 당선 확률의 불확실성을 높이는 여러 요인을 시뮬레이션에 넣는 것. 

Posted by sovidence
,