미국 대선 결과에 대한 방법론적 감상
많은 사람들이 비슷하겠지만, 놀랐음.
2016년 선거 때는 질 수도 있다는 생각이 있었다. 가장 큰 이유는 여론조사 결과가 들쑥날쑥했기 때문. 모두가 99% 이상 힐러리 클린턴 승리가 확실하다고 했을 때 Nate Silver는 트럼프 당선 확률이 상당하다고 진단했었다. 당시 여러 교수들이 네이트 실버의 계산이 엉터리라고 많이 비판했다. 특히 언론에 대문짝만하게 나오게 네이트 실버를 비판했던 시카고 교수 한 명이 기억에 남는다. 막상 선거 결과가 나온 뒤에 모두 버로우탔지만.
이 번 선거에서는 질 가능성이 높지 않다고 믿었다. 여론조사 결과가 매우 일관되게 8%포인트 이상 바이든이 이기는 걸로 나왔기 때문이다. 538의 마지막 예측은 8.4%포인트 격차였다.
이 번 대선 개표를 보고 가장 크게 놀란 것은 현재 개표율 기준으로 바이든이 트럼프를 2%포인트 정도만 앞서고 있다는 점이다. 2016년에 예측이 틀릴 때도 여론조사는 미국 전체 지지율을 정확히 반영했다. 개별 주의 측정 오차가 문제였지, 전체 미국 국민의 의사를 측정하는데는 문제가 없었다. 그런데 이 번 조사에서는 미국민 전체의 의견을 제대로 반영하지 못한 것인가?
미국 중부 시간 오전11시 현재, 총 개표수는 대략 1억3천6백만표다. 전체 투표수는 대략 1억6천만표고. 앞으로 2천4백만표 정도를 더 개표해야 하는데, 이 중 70% 이상이 바이든을 지지하고, 30% 정도만 트럼프를 지지해야 전체 득표율 격차가 8%가 될 것이다. 남은 표는 사전투표가 많을테니 불가능한 것은 아니다.
결과는 둘 중 하나다.
(1) 전국 여론조사 완전히 빗나감.
(2) 여론조사가 맞고, 이렇게 차이가 크게 나는데도, 선거는 박빙.
뭐가 되었든 문제가 있다. 미국에 사는 입장에서 차라리 (1)이기를 바라지만.
또 다른 감상 하나는 "사회조사방법론"과 "통계"를 이제 대학과 고등학교 필수 과목으로 넣을 필요가 있다는 것이다. 모든 사람들이 사전투표는 민주당 지지자가 당일투표는 공화당 지지자가 많다는 것을 알고 있었다. 통계 용어로 "선택 편향"이 있다는 것. 따라서 개표 순서에 따라서 민주당과 공화당 몰표가 나오게끔 되어 있었다.
이런 상황이 명확한데도 불구하고, 많은 사람들이 단순 합계에 근거해서 결과를 예측하는 오류를 피하지 못한다.
이렇게 선택편향이 있을 때 결과를 제대로 예측하기 위해서는, 어떤 투표함을 열었는지에 "가중치"를 주어야 한다. 그게 없으면 접전 지역에서의 개표 초반 결과는 아무런 의미가 없다. 이런 기본적인 지식을 심지어 선거 전문가들도 제대로 모르거나, 알고도 단순 숫자 합계가 주는 illusion을 피하지 못한다.
단순 숫자가 주는 illusion의 강도를 깊이 깨닫는 계기가 되었다. 정책적으로도 이 착각을 적절히 이용할 필요가 있다.
어쨌든 체계적으로 개표 과정에서 선택편향이 크게 반영되고, 그 편향이 빠른 시간 내에 교정되지 않는 미국 시스템은 큰 개선을 필요로 한다.