출구조사는 전국 1만3천여 투표소에서 360개 투표소를 1차로 추출하고, 그 투표소에서 매 6번째 출구자를 2차로 추출하는 조사 방식이다. 첫번째 샘플을 PSU, 두번째를 SSU라고 한다. 조사용어로 계통표집법을 쓴다. 한겨레 기사에 따르면 총 8만6천명의 유권자를 출구조사할 예정이다.
그렇다면 정확도는 일반적으로 생각하는 8만6천여 표본수의 정확도를 가질까? 답은 노. 단순무작위 추출일 경우 8만6천 표본수는 95% 신뢰수준에서 한계오차범위가 ±0.3%이다. 하지만 출구조사는 전국 유권자를 대상으로 단순 추출하는 방식보다 오차가 훨씬 더 크다.
그 이유는 1만3천여 투표소에서 360개 투표소를 추출할 때 오차가 발생하고, 360개 투표소에서 매 6번째 출구자를 추출할 때 오차가 발생하여, 1회만 오차가 발생하는 단순 무작위 추출과 비교해 오차가 2회에 걸쳐 생기기 때문이다. 출구조사 결과는 360개 투표소 결과의 weighted sum이다. 360개 투표소가 1만3천여 투표소의 평균을 정확히 대표하면 오차가 줄어들지만, 그렇지 않을 경우, 오차가 상당히 커진다. 비용대비 출구조사는 비효율적이다. 그럼에도 출구조사를 하는 이유는 출구조사만이 조사대상을 투표자로 한정할 수 조사할 수 있기 때문이다.
즉, 출구조사오차 (TE) = 투표소 선정 오차 (PE) + 투표소 내 출구자 선정 오차 (SE)
때문에 360개 조사대상 투표소를 선정할 때 13,000개 전체 투표소에서 무작위로 선정하기 보다는 과거의 투표성향, 투표자 수를 고려하여, 오차를 최소화할 수 있도록 투표소를 선정한다. 출구조사의 정확도는 매 6번째 출구자를 어떻게 조사하는가 보다는(즉, SE), 360개 조사대상 투표소를 어떻게 선정했느냐에 달렸다 (즉, PE). 계통표집법의 오차 계산은 단순무작위 추출보다 훨씬 더 복잡하다.
한겨례 신문에서는 출구조사의 오차범위가 ±0.8%라고 하는데, 어떤 방식으로 계산했는지, 신뢰수준을 어떻게 잡은 건지, 정보가 너무 없다. 내가 계산하기로 (1) 각 투표소 내에서 조사자 선정은 완전 무작위고, 비록 투표마감 시간인 6시까지 조사하지 않고 5시에 마감함에도 불구하고, 이 후 투표자가 5시 이전 투표자와 다르지 않다고 가정하고, (2) 투표율은 대략 70%내외고 전국적으로 투표율의 격차가 미미하다고 가정하고,
(3a) 전체 투표구별 지지율 평균의 격차가 8% 정도라고 가정하면 (약간 복잡한데, 서울, 영남, 호남 등 투표소별 지지율이 전국 지지율 평균과 다른 정도의 평균이 8%), 95% 신뢰수준에서 한계오차범위는 ±0.8%로 한겨례 신문의 보도와 같고,
(3b) 전체 투표구별 지지율 평균의 격차가 10%라고 가정하면, 오차범위는 ±1.1%,
(3c) 이 보다 높아서 전체 투표구별 지지율 평균의 격차가 20%라고 가정하면, ±2.1%다.
이 중 가장 현실적인 시나리오는 (3b)같은데, 투표소 선정과정에 따라 (3a)도 가능할 듯. 신뢰수준을 99%로 높이면, 오차는 (3a)에서 ±1.1%, (3b)에서 ±1.4%로 더 커진다. 즉, 오후 6시에 발표되는 출구조사 결과, 득표율 격차가 2%포인트 미만이면, 최종 결과는 개표가 진행되어야만 알 수 있다.