중앙 두 번째 기사: '文 못한다'…사람이 물으면 46%, 기계가 물으면 64%

 

정치 조사, 그 중에서도 지지도 조사는 매우, 대체로 등의 형용사를 포함한 Likert 척도를 거의 신뢰하지 않음. 옛날에 갤럽에서는 지지도 조사를 보통을 포함해서 5점 척도로 하기도 했음. 지금은 아무도 그렇게 안함. 2점 내지는 4점 척도로 하지.

 

그런데 중앙일보 보도에 나온 4점 척도 조사는 걍 그렇게 하는 것. 분석을 저렇게 4점 척도로 해서 크게 의미를 부여하는 조사분석가는 없음. 미국의 대통령 지지율 조사를 보면 모두 approval 과 disapproval 두 개로 보도하지 "매우 지지"의 비율을 분석하고 보도하지 않음. 

 

즉, (1) 매우지지-(2) 대체로지지-(3) 대체로 지지하지 않음-(4) 매우 지지하지 않음의 4점 척도로 조사해도 분석은 대부분 지지(approval)와 비지지(disapproval)로 두 개로 나눠서 함. 정치를 최종적으로 좌우하는 선거는 discrete choice이지 누군가에게 "대체로 지지"라는 투표를 하지는 않기 때문.

 

중앙일보는 여론조사의 문제를 과장하기 위해서 분석을 이상하게 하고 있음. 

 

아래 그래프는 중앙에서 여론조사가 황당하다고 주장하며 근거로 제시한 조사방법에 따른 천양지차의 여론조사 결과

이 결과를 찬반 두 개로 바꾸면 5가지 조사 방법의 결과는 아래와 같음. 논의의 편의를 위해서 ARS 조사의 표시 순위를 위 그래프와는 조금 바꾸었음. 95% 신뢰구간은 500명 샘플에서 찬반의 proportion에 따라 별도로 모두 계산하였음. (참고로 언론에 많이 나오는 1천명 조사에서 신뢰구간 +-3.1%는 최대표집오차임. 각 proportion의 표집오차는 proportion의 사이즈에 따라 다 다름. proportion의 분산은 proportion의 크기가 결정하기 때문.)

    지지 (95% 신뢰구간) 반대 (95% 신뢰구간)
전화면접 집+휴대(RDD) 42.9 (38.6~47.2) 50.9 (46.5~55.3)
  집+휴대(가상) 45.1 (40.7~49.5) 46.2 (41.8~50.6)
ARS 휴대(가상) 48.4 (44.0~52.8) 49.2 (44.8~53.6)
  집+휴대(RDD) 41.2 (36.9~45.5) 57.0 (52.7~61.3)
  34.2 (30.0~38.4) 64.0 (59.8~68.2)

아는 분들은 알겠지만 95% 신뢰구간은 순전히 표집오차만 계산한 것임. 전화면접과 ARS 조사방식의 차이, 집전화와 휴대전화 비율의 차이는 신뢰구간과는 무관. 따라서 조사방식을 달리해도 결과가 표집오차의 신뢰구간 내에 있다면 조사방식의 차이가 우연한 표집의 차이 보다 크지 않다는 것을 의미함. 

 

위 표에서 보다시피 ARS 집 전화 하나를 제외하고 나머지 4개 조사는 문통 지지율이 95% 신뢰구간에서 겹침. 두 개 전화조사 간의 차이는 완전히 표집오차의 범위 내에 있음. ARS 집 전화 Only 조사를 제외하고, 나머지 4개 조사는 상당히 일관된 결과임. 

 

지지(approval)가 아닌 반대(disapproval)로 보면 전화면접과 ARS 휴대 3개 조사는 95% 신뢰구간이 겹침. 집 전화를 포함한 ARS조사가 문제인데, ARS 조사 중에서 집+휴대 조사는 전화면접이나 ARS 휴대전화 조사 결과와 일부 겹침. 반면 집전화만 컨택한 ARS는 다른 조사 결과와 신뢰구간이 겹치지 않음. 

 

이로부터 내릴 수 있는 결론은 ARS 집전화 조사를 제외한 나머지 조사는 상당히 일관된 결과를 보여준다는 것. ARS 조사를 한다면 집 전화를 완전히 제외하고 휴대(가상)번호) 조사만 하면 전화면접과 상당히 유사한 결과가 나옴. 

 

조사방법에 따라 "천양지차"가 난다는 중앙일보의 분석과는 거리가 멈.

 

중앙일보에서는 익명의 통계학과 교수를 인용해서 "한국의 풍토나 시스템을 고려하면 그 어떤 조사방식도 정확하다고 말하기 힘들다"는데, 도대체 왜 어떤 조사방식도 정확하지 않은데 이렇게 일관된 결과가 나오는지, 그 교수 분과 중앙일보는 설명해야. 

 

한국의 여론조사가 문제가 있다는 점은 누구보다도 동의함. 그런데 명확한 근거도 없이 여론조사는 조작이라는 음모론적 기사를 메인 일간지에서 쓰면 어쩌라는 거임? 위의 분석에서 나오는 정도의 일관성을 가진 여론조사 결과가 아니면 유튜브의 선동을 믿어야겠음? 

 

마크 트와인이 말했다고 알려진, "거짓말, 빌어먹을 거짓말, 그리고 통계"라는 비난은 바로 중앙일보 기사처럼 적당히 통계를 섞어서 잘못된 주장을 하는 행위를 지적하는 것. 모든 음모론이 뭔가 그럴듯한 근거를 가져다 붙임. 자세히 따지고 보면 헛소리지만. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 의문? 2019.11.05 21:56  댓글주소  수정/삭제  댓글쓰기

    전체 틀에선 맞네요. 다만 전문적인 통계적 논의를 하자면 이것도 중앙일보 기사처럼 너무 나갔다는 느낌입니다

    • 푸른 2019.11.11 01:27  댓글주소  수정/삭제

      언제부터, 주장과 근거를 갖춘 글이 공허한 수사와 양비론으로 호도될 수 있게 된건지...

      글의 마지막 문장인 "자세히 따지고 보면 헛소리지만." 1승 추가


  2. 재떨이 2019.11.05 22:51  댓글주소  수정/삭제  댓글쓰기

    늘 재미있게 읽고 있습니다. 호기심이 좀 생겨서 여쭤봅니다. 그럼 정치적 견해 조사에서 rank를 메겨서 하는 설문조사에 어떤 장점이 있는지요? (특정한 종류의 결론을 설명하는데 유리하다던가...) 또는 장점이 없는데 조사기관의 미숙함 때문에 이런 선택을 하는 것일까요?

    ps. 아무래도 상관없는 말입니다만, 통계가 거짓부렁이라는 이야기는 벤자민 디즈데일리일 겁니다. 통계를 인용하면 있어 보였던 것은 빅토리아 여왕 시절도 마찬가지였던 모양입니다.

    • 바이커 2019.11.05 23:08  댓글주소  수정/삭제

      likert scale이 유용한 경우도 많습니다. composite index를 만들 수도 있고요. 종속변수로 쓰면 연속변수로 취급하는 편의도 있습니다.

      문화적으로 국가에 따라 양자택일 때는 무응답이 증가하지만 "대체로"란 말이 들어 있으면 찬반을 표시하는 경우도 있습니다.

      ps. 그 문구를 정확히 누가 처음으로 말했는지는 확실하지 않습니다. 디즈데일리라는 얘기가 있었는데 그것도 아니라고 하더군요.

  3. C 2019.11.15 05:59  댓글주소  수정/삭제  댓글쓰기

    저기.. 총 10개중 3개가 차이나면 큰거 아닌가요?

    • 바이커 2019.11.15 07:41  댓글주소  수정/삭제

      다른 방법론으로 조사한걸 비교한건데요?

    • C 2019.11.15 17:51  댓글주소  수정/삭제

      다른 방법론으로 조사해도 다들 똑같은걸 재려고 하는 것이니까 제대로 된 방법론들이라면 통계 내에서 오차 범위 내에 들어있어야 하는거 아닌가요? 바꿔말해 평균적으로 이런 다른 방법론들 20개를 시도해보면 그 중 1개가 오차범위 내의 수치를 내야죠. 지금은 10개중 3개 내지 2개인데 샘플 적다는걸 감안해도 꽤 높지 않은가요?

      그리고 리커트 스케일도 찾아보니 그냥 찬성/지지가 아니던데요? https://en.wikipedia.org/wiki/United_States_presidential_approval_rating#President_Donald_Trump 다들 2점척도가 아니라 3점척도로 보여주고 있습니다.
      맥락을 고려하지 않는다면 일반적으로 권고되는 척도 수는 최대 7입니다. 7개 문항에서 최대로 정보를 끌어낼 수 있다고 하네요. https://www.fusionsport.com/blog/agree-to-disagree-how-many-likert-scale-points-is-optimal/
      무엇보다 '몇 개로 해야 한다'는건 내적 일관성이 있다면 연구자가 선택할 사항이라는게 컨센서스로 보입니다. https://www.researchgate.net/post/What_is_the_problem_with_using_only_4_categories_in_a_Likert_scale_Strongly_disagree_Disagree_Agree_Strongly_agree 단순 대통령 지지율만 보고 싶다면 3점 척도가 좋겠지만 이걸 극우/중우/중좌/극좌로 매핑해보려면 4점척도를 쓸 수도 있는거고, 크론바흐 알파가 괜찮게 나오면 3점이든 4점이든 5점이든 바라보는 관점의 차이이지 통계적 문제는 없는거 같네요.

    • 바이커 2019.11.15 20:49  댓글주소  수정/삭제

      아닙니다. 조사의 목적 자체가 방법론상의 차이가 결과의 차이를 낳는가를 체크하는 겁니다. 다 같이 제대로 된 방법론이라는 가설을 검증하는게 아니에요.

      그리고 링크한 위키는 3점 척도 아니에요. 이걸 3점 척도라고 하는걸 보니... 나머지 얘기는 너무 일반론이라 얘기할게 없습니다.

  4. 빛의 편지 2019.11.19 16:23  댓글주소  수정/삭제  댓글쓰기

    실례지만 제가 봤을 때 바이커 교수님의 논지에 문제점이 보이는 점이 있어서 질문 드립니다.

    1. 이건 국회의원 선호도 후보를 조사하는 것이 아닌 국정운영 지지도 조사이기 때문에 4점 척도를 긍정/부정으로 합쳐놓은 것 자체가 엄연히 정보전달에 "왜곡"을 일으킬 수 있는 요인이라고 생각합니다. 전화면접 조사에 비해서 ARS 조사에서 (매우 잘 하고 있다/매우 못 하고 있다) 같이 더 "강경한" 답변이 오차범위 밖의 수준으로 많이 나오는 것 보면 ARS 적극응답층의 성향과 전화면접 응답층의 성향 차이가 유의미하다는 것 같은데요.

    이게 "대체로 지지", "대체로 반대" 선택한 사람은 지지/반대 방향을 상대적으로 쉽게 바꿀 수 있는 사람들이라 이들을 강경 지지층/강경 반대층아랑 합치는 건 명백히 정보의 손실을 유발할 수 있는 요인이라고 생각합니다.

    2. 그리고 논지 중에 문제점이 있는 부분이 여론조사 5개 유형중 하나라도 오차범위 밖을 벗어나면 모든 유형이 "비슷한 여론조사 결과를 유도한다"라고 결론을 내리기 어렵다는 겁니다. ARS+집조사에서 여론조사 결과는 다른 네 조사와 다르다는 결론이 명확하게 나와있는데 그 부분은 극히 예외적인 상황으로 처리하시는 건지요.이 방식 자체가 여론을 표집하는데 적절하지 않은 근거를 제시하지 않는 이상.

    • 바이커 2019.11.19 20:16  댓글주소  수정/삭제

      모든 지지율은 각기 다른 지지정도를 생략하여 비교의 일관성을 높인겁니다. 지지강도는 추가적 정보죠. 전자가 왜곡이 아니라.

      ARS 응답자와 전화면접 응답자의 성향차이인지, 조사방법의 ERS 민감성 차이인지 잘 생각해보시길.

      ARS 조사가 문제가 있다는 것은 여러 연구와 조사회사에서 동의하는 부분인데, 문제있다는 조사방법을 끼워놓고 결과가 일치하지 않으니 조사 전체가 문제있다고 주장하는건 무슨 논리인지 모르겠어요.