Vox EU 요약문


네델란드의 동성애자와 이성애자를 대상으로 결혼, 동거로 인한 주관적 행복도 변화를 살펴본 결과, 


10점 만점의 주관적 행복도 척도에서 각 상황과 성향별 평균 점수는 아래와 같음. 


 

 이성애자

 동성애자 

 파트너가 있는지 여부

 

 

 - 파트너 없음

6.98

 7.65 

 - 파트너 있음 

  7.73  

7.76

 파트너와 혼인/동거

 

 

 - 혼인

 7.76 

 7.83 

 - 동거 

 7.58 

 7.68 



혼인이든 동거든 파트너가 있는 사람이 더 행복하고, 평균적으로 동성애자가 더 행복하다고 느낌. 혼인과 동거 중에서 동거보다는 혼인관계의 사람들이 더 행복하다고 느낌. 


저자들은 결혼해서 행복해지는게 아니라 행복한 사람이 결혼할 가능성도 연구했는데 행복한 사람이 결혼하는 selectivity는 결혼으로 행복해지는 효과의 절반만 설명. 


동성애자든 이성애자든 결혼은 평균적으로 비슷한 수준의 행복 증가로 이어진다고 함. 


결론: 모태솔로는 불행한 것이여. 

Posted by 바이커 sovidence

머니투데이 뉴스


"진술에 따르면 지난해 청와대 정무수석실은 20대 총선 결과를 예측하기 위해 자체적으로 실시한 비공개 여론조사 비용을 사후정산해야 한다며 국정원에 자금을 요청했다. 이에 국정원은 특수활동비 5억원을 정무수석실에 지급했고, 정무수석실은 이 돈으로 여론조사 비용을 정산했다. 지난해 청와대 정무수석에는 6월까지 현기환 전 수석, 이후에는 김재원 전 수석이 재직했다.


지난해 4월 청와대 정무수석실 소속 신동철 당시 정무비서관은 4.13 총선 결과를 예측해 박근혜 전 대통령에게 보고하기 위해 자체적으로 비공개 여론조사를 실시했다. 총선 직전 신 전 비서관은 여론조사 결과를 토대로 당시 여당이었던 새누리당의 과반의석 확보가 어려울 수도 있다고 현 전 수석에게 보고했으나 현 전 수석은 박 전 대통령에게 과반의석 확보가 가능하다는 취지로 보고한 것으로 알려졌다."




청와대가 국정원 돈을 받아서 총선 자체 여론조사를 했다. 뇌물, 세금으로 자기네들 정치 자금 유용, 청와대가 선거개입 가능성 등 문제가 되는게 한 두 가지가 아닌데, 


나같은 사람에게 또 한가지 놀라운 것은 여론조사 기관과 언론사들은 모두 예측하지 못하고 틀렸던 새누리당 과반 의석 확보 실패를 박근혜 청와대는 정확히 예측했다는 것이다. 


도대체 어느 여론조삭 기관인가? 어떤 방법을 사용한 것인가? 여의도 연구소도 과반확보 실패 가능성을 보고했었다는데, 단순 지지율을 묻는 방식 외에 보수야당 측에서 사용하는 뭔가 다른 선거 여론조사 노하우가 있는 듯하다. 


이런 지식은 공개하고 공유해야 하는 것 아닌가? 

Posted by 바이커 sovidence

마지막 주간동아 기고문



정부와 통계청이 소득 자료와 재산 자료 공개를 거부하는 핵심 논리가 프라이버시 보호. 하지만 복지국가일수록 중앙 정부가 국민들의 일상 생활에 대한 많은 정보를 축적하고 있고, 연구를 위해 공개하고 있음. 


정작 필요한 프라이버시는 정부에서 보호하지도 않으면서 부자들을 위한 이데올로기로 프라이버시 보호를 악용하는 경우가 빈번함.  


"과학은 진보 편향이 있다 (science has a liberal bias)"라는 말도 있음. 정확한 통계는 없는 사람들의 편. 정확한 통계 없이 복지도 없고 평등한 사회도 없음. 


박근혜 정부에서 정부 투명성이 낮아지고, 정보를 공개하지 않는 반면, 진보 정권에서 정보 공개권을 강화하는게 우연이 아님. 


통계 입국이 복지 강화의 길. 





최근 한국 대선에서 안철수 후보 딸의 재산이 이슈가 되었음. 

‘독립생계 유지’를 이유로 재산 공개 의무를 지지 않는 자녀가 의혹 대상이 된 것이다. ... 그런데 노르웨이에서는 다르다. 모든 사람의 세금 자료가 인터넷에 공개되고 있다. 매년 10월이면 모든 노르웨이인의 소득 정산 보고서가 공지된다. 언론은 최고 소득자가 누구인지 보도하고, 정치인과 유명 인사의 소득을 소재로 기사를 쓴다. 누구나 이웃, 친구, 동료의 연소득을 확인할 수 있다. ...

노르웨이만 유난한 것이 아니다. 스웨덴도 1903년 이후 모든 세금정산 보고서가 공공자료가 됐다. 전화 한 통이면 누구든 타인의 세금 명세를 알 수 있다. 이때 정보 요청자의 실명을 밝힐 필요도 없다. ... 

북유럽 복지국가들이 세금 정보를 투명하게 공개하게 된 것이 우연은 아니다. 소득과 관련한 프라이버시를 지나치게 강조하는 것은 복지 확대와 양립하기 어렵다. 복지는 필연적으로 개인 정보의 정부 집중을 필요로 한다. 복지 수혜자를 제대로 가려내려면, 또 복지 재원을 충분히 마련하려면 소득 정보를 정확히 파악해야 하기 때문이다. ... 

소득 불평등과 차별을 줄이려면 정확한 통계 정보가 필요하다. ... 미국은 한국보다 프라이버시를 더 중요하게 여길 것으로 생각되지만, 일부 보안을 요하는 직종을 제외하면 모든 연방정부 공무원의 개인별 연봉 자료가 인터넷에 공개돼 있다. 많은 주정부가 주공무원의 연소득 자료를 인터넷에 공개하고 있기도 하다. 주립대 교수들도 예외가 아니다. ...  

많은 국가가 국세청 소득 자료와 서베이를 연계해 불평등 증가의 원인을 밝혀내려 애쓰고 있다. 미국도 여러 서베이와 세금 자료를 연계해 연구한다. 최근 발표된 불평등에 대한 중요한 사회과학 논문의 상당수가 개인의 세금자료를 직접 분석한 것들이다. ... 

우리나라는 주민등록번호가 있어 다른 나라보다 자료를 연계해 이용하는 게 쉽다. 교육, 소득, 의료 정보를 연계해 불평등과 빈곤 정도를 파악하고 정책 효과를 검증할 수 있다. 불평등이 어느 정도인지, 얼마나 늘었는지, 누가 빈곤층인지 정확히 알 수 있다. 실제로 북유럽 복지국가는 모두 이렇게 한다. 전 국민의 자료를 분석해 복지 사각지대를 없애려 노력한다. 

프라이버시 보호는 중요하다. 하지만 정부가 정보를 독점하고 국민 복지 향상을 위해 사용하지 않는 것은 부유층의 이해를 대변하는 것으로 귀결될 공산이 크다. 국민 복지는 정보의 공개와 정확한 통계의 작성에서 시작된다.


주간동아의 부분개편으로 이 글이 저의 주간동아 마지막 기고문이 되었습니다. 2년 넘게 읽어주신 독자분들께 감사드립니다. 

Posted by 바이커 sovidence




- 5/3 예측: 추가 보도가 있어서 업데. 


5월2일 조사를 추가하면 안철수 하락, 홍준표 상승의 추세가 더 명확함. 


심상정 9.0%, 유승민 5.2%. (지난 주말 이후 조사에 90% 가중치를 준 결과임)


안철수 지지율은 지난 10일 동안 하루 평균 1.4%포인트씩 빠지는 중. 반면 홍준표 지지율은 하루 1.0%포인트씩 증가. 이 추세가 지속될 경우 문재인은 최종적으로 44% 내외. 안철수는 15%내외, 홍준표는 25%내외를 받을 수 있음. 하지만 남은 안철수 지지층의 충성도가 지난 10일간의 이탈층보다 높을 것이고, 홍준표도 집중 견제를 받기 시작했기에 추가 상승을 얼마나 할 수 있을지는 확실치 않음. 


이 번 주 여론조사 평균만 놓고 보면 문재인-안철수 갭은 19.6%p, 안철수-홍준표 갭은 3.3%p. 


문재인 당선 확률은 99%+ 달함. 확률 계산이 의미 없음. 이 번 예측 확률 계산을 설계하면서 당선확률 1이 90%를 넘어갈 것으로 기대치 않았음. 미국에서 힐러리 당선 확률이 99%라고 얘기할 때는 힐러리-트럼프 격차가 2-3%p에 불과했음. 온갖 시뮬레이션으로 확률을 과장한 것. 반면 현재 한국 대선의 여론조사에서 문재인과 안철수의 격차는 18-19%p에 달함. 모든 조사가 매우 안정적으로 최소 15%p, 최대 23%p 문재인의 우세를 점치고 있음. 조사 결과의 reliability가 높음. 이 격차는 설사 응답에 바이어스(즉, 샤이 안철수, 샤이 홍준표)가 있어도 뒤집기 힘든 수준. 문재인이 이기지 못하면 한국 여론조사 회사가 모두 문닫는건 물론이고, 서베이 방법론의 validity를 폐기해야 할 수준.   


앞으로 여론조사가 없는 6일 동안 안철수-홍준표 단일화 이외에 판세를 흔들 변수는 없다고 생각. 몇가지 시뮬레이션을 돌려봤는데 설사 단일화가 되더라도 단일화의 시너지 효과가 기존 문재인 지지율을 잠식하지 못하는 이상 문재인 당선 확률이 더 높음. 단 한가지 변수는 <단일화 + 기존 여론조사의 응답편향>이 같이 나타날 경우. 이 경우도 역전이 확실한게 아니라 누가 이길 수 알 수 없게되는 수준.    


- 5/2 예측: 중앙일보, 한국리서치, R&R, 마크로엠브레인의 주말과 월요일 조사 추가. 문재인 지지율이 고점 대비 1.7%포인트 하락. 심상정 9.3%, 유승민 5.1%.


- 4/30 예측: 이 번 주말에 KSOI외에 예측에 포함된 조사 기관의 결과가 없어서 안철수 하락, 홍준표 상승이라는 최근 변화가 완전히 반영되지 않은 것. 심상정 6.6%, 유승민 4.7%. 


- 4/27 예측: 유승민 4.1%, 심상정 5.1%. 심상정 지지율이 올라가는 추세인건 맞는데, 8% 넘어갔는지는 추가 확인 필요. 현재까지는 같은 기간에 실시된 한국리서치 조사에서만 이러한 결과가 나옴.  


- 4/26 예측: 당선확률 2는 99%를 넘어가서 통계로서의 의미가 없어서 더 이상 업데 안함. 보다시피 문재인 지지율은 변화가 없고 안철수 지지율은 하락. 반면 다른 모든 후보자 지지율 상승 중. 안철수로 결집되었던 반문연대가 제 갈 길 찾아 흩어지는 형세. 유승민 4.0%, 심상정 4.8%. 


- 4/25 예측: 중앙일보 자체 조사 추가. 4/22-24일 사이에 조사된 4개 조사(중앙, 칸타, R&R, KSOI)의 평균 1-2위 격차는 10.6%포인트. 당선확률 2는 거의 최대치에 도달. 지난주까지만해도 문재인 지지율의 조사기관별 격차(st.dev)가 더 컸는데, 지난 19일 이후 조사에서는 안철수 지지율의 조사기관별 격차가 더 커짐. 문재인 지지는 안정화되는 반면 안철수 지지는 불확실성이 증가. 참고로 심상정 4.2%, 유승민 3.7%.


- 4/24 발표 여론조사 특징: 당선확률 1이 당선확률 2만큼 오르지 않은 이유는 이전 조사 대비 무응답층의 확대 때문. 안철수의 지지율이 떨어져 격차는 확대되었지만 문재인의 지지율이 그에 비례해 오른 것은 아님. 예상득표율을 보더라도 안철수가 2%포인트 하락하는 동안, 문재인은 0.4%포인트만 오름. 조선일보 발표만 보면 4/14 조사 대비 4/22조사에서 안철수 지지율은 5%포인트 하락하지만, 문재인 지지율은 1.2%포인트만 증가. 문재인의 표 확장력에 한계가 있지만, 안철수가 반문재인표를 모아낼 수 있는 능력을 보여주지는 못하고 있음. 


- 4/22, 4/23일자 예상치는 해당 일자에 새로 업데된 여론조사가 없어서 4/21자, 4/24일자 예상치의 가중평균을 단순 대입한 것. 


- 업데할 때 마다 이 포스팅을 첫포스팅으로.  


- 당선확률 1은 여론조사에 2-3%포인트 숨은 에러가 있다고 가정할 경우이고, 당선확률 2는 그런 에러가 없다고 가정할 경우.


- 안철수의 당선 확률 = 100 - 문재인 당선 확률


- 구체적인 분석 방법론은 요 포스팅 참조.  

Posted by 바이커 sovidence

샤이 투표자는 두 가지 메카니즘에 의해 발생할 수 있음. 


(1) 여론에서 수세에 몰린 세력이 언론, 여론조사 등을 외면하는 반면 투표장에는 가는 경우. (2) 여론에서 우세를 차지한 세력이 이길 줄 알고 투표장에 가지 않는 경우. 아마 대부분의 경우 두 가지가 한꺼번에 발생할 것. 


샤이 투표자는 한 쪽 여론이 우세할 때만 발생. 공안정국이나 도덕적 단죄 등 여론이 사회적 선망 편향과 결부되는 정국에서 샤이 투표자가 발생할 가능성이 큼. 


한국에서 작년 총선은 공안정국, 박근혜식 공포정치가 샤이 투표자를 낳는다는 것을 잘 보여줌. 미국에서 작년 대선은 도덕적 단죄의 정국에서 샤이 투표자가 발생하는 양태를 극명하게 보여줌. 




한국에서는 과거의 선거를 돌아볼 때 두 가지 패턴을 발견할 수 있음. 


1. 역대 대선에서 샤이 투표자는 없었음. 대선은 여론조사가 매우 잘 들어맞음. 

2. 하지만 역대 다른 모든 선거에서 샤이 투표자가 있었음. 여론조사가 꽝.  


이 두가지 선거의 차이가 뭔가? 


대선은 이명박이 이겼던 선거를 제외하고는 모두 박빙이었음. 누가될지 끝까지 긴장감을 늦출 수가 없었음. 지지자 총동원이 가능. 반면 총선이나 지자체 선거는 한 쪽이 이긴다는 분위기가 형성된 경우가 대부분이었음.


한국에서 총선이나 지자체 선거 결과의 특징은 이긴다는 분위기가 형성된 쪽이 대부분 예상치보다 적게 나왔다는 것. 또 다른 특징은 여당이 이긴다는 분위기가 형성되었을 때 결과는 기대와 다르게 나왔다는 것. 


예를 들어 보수가 이긴다는 분위기가 팽배했던 2016년 총선에서 진보가 압승. 반대로 남북대화 발표 등으로 새천년민주당이 상당히 이길 줄 알았던 2000년 총선은 보수가 이겼음. 두 선거 모두 여론조사 회사가 죄인이 되었음. 2000년 총선 당시는 방송국 여론조사 담당 간부들이 징계도 먹음.





즉, 샤이 유권자는 

(a) 정치적 견해가 다른 집단이 존재하는데  

(b) 한 쪽의 의견을 표명하기에 자유롭지 않을 분위기가 있고  

(c) 현 집권 여당이 이기고 있다는 여론조사 결과가  

모두 충족되어야 발생함.  


설사 (b)가 충족되어도 집단의 정치적 일체감이 강해 (a)가 형성되지 않거나, (a)+(b)가 있더라도 지역적으로 (c)가 충족되지 않으면 발생하지 않음. 


완전 폭망한 여론조사였던 2016년 총선에서도 대구경북과 호남 지역의 여론조사는 정확했음. 단순히 승자 예측 뿐만 아니라 오차의 크기가 작았음. 전국적 분위기와 달리 대구경북에서는 (a)와 (b)가 충족되지 않았고, 호남에서는 (c)가 충족되지 않았음 (즉, 호남에서는 진보가 여당). 새누리당이 압승을 거둔 지역과 국민의당이 압승을 거둔 양대 지역은 여론조사에서 샤이 투표자가 없었던 것.  




그렇다면 샤이 안철수는 존재할까? 


TK 보수가 박지원이 대표고 호남 정당을 표방하는 국민의당 안철수를 지지한다고 자랑스럽게 말할 수 있을 것으로 생각되지 않음. 다른 한 편, 반문정서를 가졌으나 진보 성향을 가진 호남(출신) 유권자들도 자유한국당과 연대하겠다는 안철수 지지를 표방하기 어려움. 양 지역 모두에서 안철수 지지가 도덕적 타락으로 여겨지는 분위기가 존재할 수 있음. 탄핵 후 대통령 궐위 상태의 선거라 원내 1당인 민주당이 여당처럼 보이는 현상이(내지는 그렇게 보이게 만들려는 보수의 노력도) 있음. 


역대 대선이 선거가 가까워질수록 도덕적 분위기라기 보다는 세력 대결이었는데, 이 번 대선은 자신의 정체성과 정치 도의적 선택 사이의 갈등이 존재하는 특이한 상황. 


그런 면에서 샤이 안철수는 존재한다고 생각. 


하지만 그 크기가 지난 총선만큼 크지는 않을 것으로 봄. 그 이유는 문재인 지지자 역시 매우 목말라 있어 처음에 언급한 샤이 투표자 존재의 두 번째 메카니즘, 문재인 지지자가 투표안하고 놀러갈 가능성이 낮기 때문. 


황교안이 대통령 권한 대행이라 민주당이 여당으로 보이는 착시측면도 약함. 위에서 언급한 (c)의 조건이 충족이 안됨. 안철수 승리는 보수세력의 (적어도 절반의) 승리지 온전한 정권교체가 아니라는 인식이 강함. 


2016년 총선에서 ARS가 아닌 직접전화면접 방법을 사용한 신뢰할만한 조사 기관에서 발생한 오차는 대략 보수가 +3, 진보가 -2~3이었음. 비슷한 정도의 샤이 유권자가 있다고 가정해도, 대선 여론조사에서 평균 5%포인트 이상의 격차가 발생할 가능성은 낮다고 생각. 이는 역으로 5%포인트 이하로 지지율 격차가 좁혀지면 결과는 까봐야 안다고 봄. 

Posted by 바이커 sovidence

뉴스타파 기사


뉴스타파에서 여론조사의 정확성을 분석하는 기사를 냈다. 이런 작업을 했다는 것은 매우 훌륭한 시도. 조사업계나 학계에서 나서서 할 일을 탐사보도 기관이 대신한 것. 그렇지만 이 분석에도 문제점들이 있다. 




한국에서 여론조사의 정확도는 지역 특성에 따라 많이 다르다. 지난 2016년 총선에서 경북, 호남 지역은 조사의 정확도가 높았고, 수도권을 포함한 기타 지역은 낮았다. 대도시의 정확도가 중소도시나 농어촌보다 떨어진다. 여당이 우세한 지역인가, 야당이 우수한 지역인가에 따라서도 조사의 정확도가 다르다. 


이 모든 요인은 조사회사가 통제할 수 없는 것이다. 대구경북 지역을 주로 조사하는 폴스미스나, 호남을 주로 조사한 전남리서치연구소의 정확도가 높은 이유 중 하나는 조사 지역의 특성 때문이다. 


반면 수도권 지역에 조사가 집중되었던 조사회사는 에러가 크고 정확도가 낮은 것으로 나오기 마련이다. 




뉴스타파 보도의 문제점은 뉴스타파의 순위와 예측력의 상관관계를 보면 더욱 명확해 진다. 뉴스타파의 순위와 "당선자예측 성공률"의 상관관계는 -.1641 (p=.2990)이다. 뉴스타파의 단순오차와 수정오차의 당선자예측 성공률과의 상관관계는 .0055 (p=.9724), -.1050(p=.5082)이다. 뉴스타파에서 계산한 에러와 성공확률의 상관관계는 극히 미약하다.  


에러와 성공확률의 상관관계가 약한 이유 중 하나는 접전지역의 선거일수록 조사를 많이하고 이 지역은 설사 에러가 작더라도 예측성공확률이 낮기 때문이다. 성공확률에 대한 측정은 선거의 접전 여부를 통제해야 의미 있는 분석이 된다. 




한국 여론조사의 가장 큰 문제점은 사회적 분위기에 따른 편향이 거의 모든 선거조사에서 나타나는데, 학계에서 이에 대한 연구도 거의 없고, 조사업계에서 이를 통제하려는 노력도 별로 없다는 것이다. 아래 분석에서 말했지만 에러의 사이즈 자체는 큰 문제가 없다. 


데이타 분석도 안해보고 여론조사의 문제점에 대해 상상의 나래를 펼치는 논평보다 뉴스타파의 분석이 천만배쯤 낫다. 하지만 분석의 깊이에서 아쉬움이 남는 건 어쩔 수 없다.  




ps. 돈이 되는지는 모르겠지만 사회과학 저널리즘의 수요는 확실히 증가하고 있다. 데이타를 직접 분석하거나, 데이타 분석을 이해하는 저널리스트 수요는 더 커질 것. 

Posted by 바이커 sovidence

표 1. 당선 확률 1 (보수적 예측, 조사 결과에 2-3%P 숨은 에러가 있다고 가정)

 

 문재인

 안철수

 4월 21일

 78.5%

 21.5%

 4월 20일

 76.6%

 23.4%

 4월 19일

 76.5%

 23.5%

 4월 18일

 72.2%

 27.8%



표 2. 당선 확률 2 (조사 결과에 숨은 에러가 없다고 가정)

 

 문재인

 안철수

 4월 21일

 90.9%

 9.1%

 4월 20일

 88.8%

 11.2%

 4월 19일

 88.3%

 11.7%

 4월 18일

 82.7%

 17.3%



표 3. 예상 득표율

 

 문재인

안철수 

홍준표 

유승민 

심상정 

 4월21일

 44.6%

 37.7%

 9.1%

 3.1%

 3.7%

 4월20일

 44.6%

 38.1%

 8.8%

 3.3%

 3.5%

 4월19일

 44.6%

 38.1%

 8.5%

 3.3%

 3.7%

 4월18일

 44.4%

 38.9%

 8.3%

 3.1%

 3.5%



* 2-3일에 한 번씩 업데 예정. 방법론을 조정함에 따라 예전에 추정했던 확률도 조금씩 바뀔 수 있음. 


* 21일 새벽 동아일보에 보도된 R&R 조사 포함. 





* 방법론


- 선관위 여론조사결과 등록 정보 중 마크로밀엠브레인, 한국리서치, 칸타코리아(구 미디어리서치+TNS), 코리아리서치, KSOI, R&R 결과만 사용하여 후보별 지지율 가중 평균을 구함. 이 조사기관들은 내가 가지고 있는 541개 2016년 총선 조사 결과 자료를 이용하여 조사지역, 대도시 여부를 통제한 후 회귀분석을 했을 때 오차크기가 상대적으로 작았던 기관들임. 아래 포스팅에서 얘기했듯 조사기관별로 특정 정당에 대한 편향은 보이지 않고 동일 방향의 오차편향이 있었음. 가중치는 최근 3일 내 조사에 45%, 3일이 경과한 이 번 주 조사는 35%, 그 전 주 결과는 20% 반영함.  


- 예상 득표율은 이 가중평균에서 무응답을 빼고 100%로 환산한 것. 


- 당선 확률 추정은 두 단계로 이루어짐. 


우선, (1) 최근 2주간 조사의 지지율 가중 표준편차에 (2) 지난 총선 자료의 오차 평균을 임의로 더하고, (3) 홍준표 후보 지지표, 무응답 비율에 따른 지지율 변동 가능성을 추가하여, 임의의 표준편차를 구함.  


그 다음, 예상 득표율과 표준편차를 이용하여 문재인, 안철수의 득표 예상치를 10,000회 시뮬레이션함. 예상 득표율 분포는 정규분포라고 가정함. 두 후보의 득표율 시뮬레이션 예상치를 랜덤하게 매치하여 각 후보가 승리하는 비율을 구함. 이 비율로 당선 확률을 추정. 


- 당선 확률 1 vs. 당선 확률 2


위 표에서 당선 확률 1은 아래 포스팅에서 얘기한 총선 자료의 오차 평균(2-3%)을 임의로 더한 것이고, 당선 확률 2는 더하지 않은 것. 4월19일 현재의 오차 계산에서 당선 확률 1은 10%포인트 격차가 벌어지면 승리 확률이 대략 90%대 초반, 당선 확률 2는 97-99%가 나오도록 설계. 




* 주의사항


- 이 방법론은 학문적 근거가 전혀 없음. 2시간 자료찾고 30분 생각해서 4줄짜리 프로그램 돌려서 계산한 것. 심심풀이 땅콩, 흘려듣는 가십으로 여기면 딱임. 2012년 대선의 박종희 교수와 같은 noble한 시도가 전혀 아님. 


- 제대로 할려면 어떤 시뮬레이션이든 과거 데이타를 이용해서 대충이라도 들어맞는지 분석해봐야 함. 하지만 과거 대선 데이타도 없고, 그런 걸 하고자하는 의지도 없음. 


- 지난 미국 대선에서 보았듯 시뮬레이션은 엄밀한 과학이 아님. 예상 득표율은 조사 결과를 반영할 수 밖에 없음. 아무리 재주를 부려도 여론조사 결과가 잘못되면 제대로 예측할 수 있는 방법이 없음. 여러 조사의 평균은 실제 결과를 반영한다는 통계적 믿음이 있을 분.  


- 유일하게 할 수 있는게 Nate Silver가 보여주었듯 당선 확률의 불확실성을 높이는 여러 요인을 시뮬레이션에 넣는 것. 

Posted by 바이커 sovidence

여론조사로 본 지지율 동향은 서울대 폴랩의 그래프를 보는게 가장 좋을 듯. 


이 자료에서 아쉬운 점은 방법론에 대한 좀 더 구체적인 설명이 없다는 것. 자세하게 언급할 필요는 없겠지만, lowess regression을 쓴다는 기초적인 정보 외에 조사회사별 가중치를 주는지, 전체 응답과 반드시 투표 간에 차이를 두는지, 표준오차 추정을 하는지 등등에 대한 정보를 줬으면 좋았을 것. 대학 연구소의 발표로써는 아쉬움이 있음. 





그건 그렇고 여론조사 결과를 믿어야 하나? 지난 총선에서 그렇게 황당하게 틀렸는데. 트럼프 당선도 틀렸고. 


그래서 2016년 총선에서 조사회사별 예측과 실제 결과를 모 조사회사 P사장님이 제공한 자료를 이용해 분석해 봤음. 


각 후보별 오차 계산은 무응답자나 지지후보 없음을 제외하고 예상득표율을 추정한 후, 실제득표율과의 편차를 본 것. 지난 총선과 관련해서 선관위에 등록된 541개 조사 결과를 바탕으로 분석해 보면, 다음과 같은 편향이 관찰됨. 


새누리당은 4%포인트 정도 과대계상되었고, 더민주는 4%포인트 과소계상, 국민의당은 2%포인트 과소계상. 그래서 전체적으로 각 후보별 오차의 절대값은 3.5%포인트 임. 


 

 새누리

더민주 

국민의당 

정의당 

무소속 

 편향

 +4.08

-4.12 

-2.03 

+0.11 

+2.33 


그런데 조사회사별로 조사 품질에 차이가 있음. 그래서 10개 이상 조사 수행 기록이 있는 회사 중에 오차와 적중률이 높은 5개 회사만 뽑아서 오차를 다시 계산해 봄. 


그랬더니 오차의 크기와 편향은 다음과 같음. 


 

 새누리

더민주 

국민의당 

정의당 

무소속 

 편향

 +2.72

-1.80

-2.82

+0.21

+2.39


보다시피 품질 하위 기관과 품질 상위 기관 사이에는 상당한 격차가 있음. 품질 하위 기관을 포함하면 8%포인트 이상 지지율에 편향이 관찰되지만, 품질 상위 기관만 보면 새누리와 더민주의 응답 편향은 4.5%포인트로 줄어듬. 


조사회사별로 특정 편향이 나타나는 것을 house effect라고 하는데, 지난 총선에서 더민주에 우호적인 편향을 보인 회사는 하나도 없음. 모든 여론조사회사가 새누리당은 과대계상, 더민주당, 국민의당은 과소계상하였음. 회사별로 정도차가 있을 뿐. 이 결과는 대선 여론조사 트렌드 예측에서 조사기관별로 가중치를 달리할 필요성이 있음을 의미함. 


이를 종합하면 완전히 폭망한 지난 총선에서의 여론조사도 일반적으로 계산하는 샘플링 오차의 범위를 심각하게 벗어나지 않음. 당시 조사에서 거의 모든 회사가 야당은 4-6%포인트 과소계상, 여당은 3-5%포인트 과대계상되는 편향이 있었음. 품질 우수 기관은 이 오차가 2-3%포인트에 불과. 그럼에도 불구하고 오차가 랜덤이 아니고 특정 방향으로 편향되어서 선거 예측의 완전 폭망을 야기함. 


이 결과의 또 다른 함의는 특정 조사회사가 조작을 하는게 아니라는 것. 대신 조사 전체를 편향되게 만드는 사회적이든 조사방법론이든 뭔가 요인이 있음. 개인적으로는 사회적 요인이 클 것으로 추측. 


트럼프가 당선된 미국 대선의 경우에도 트럼프와 클린턴의 전국 득표율은 정확히 예측하였음을 잊지말 것. 오차의 크기만 따지면 조사는 큰 문제가 없음. 오차의 방향이 편향되는게 문제지. 





이 번 대선에서 어떤 식의 편향이 나타날지는 알 수 없음. 과거의 경험으로 조심스럽게 예측해 본다면 여론조사가 항상 새누리당에게 유리하게 나오는 것이 아니라, 당시 사회적 분위기와 일치하는 정당과 후보에 우호적으로 편향되는 경향이 있는 듯 보임. 


그렇다면 이 번 대선에서 보수 후보의 지지율은 과소계상되고, 진보후보의 지지율은 과대계상될 가능성을 배제할 수 없음. 특히 보수 지지층이 사회적 분위기 때문에 조사 응답을 꺼려할 가능성이 상당함. 진보를 지지하는 젊은층보다 고연령 보수층에서 사회적 분위기와 여론조사 응답률에 상관 관계가 있을 가능성이 큼. 


하지만 설사 사회적 분위기 때문에 조사에 편향이 있더라도, 품질 상위 조사회사의 지지율 격차가 5-6%포인트 이상 벌어지면 조사 예측과 실제 결과가 다를 가능성은 낮다고 봐야 할 듯. 






ps. 이 자료로 논문쓰겠다고 했는데, 논문은 제쳐두고 블로그질만 하고 있으니ㅠㅠ


pps. 이상의 분석 경험에 비추어 최근 문제가 된 문재인이 안철수를 13.5%포인트 앞선다는 리얼미터 결과는 개인적으로 신뢰하지... 


ppps. 문재인이 안철수에 6%포인트 앞서는 폴랩의 현재 추세는, 어느 조사회사에서 어느 정도의 차이가 났는지 분석하고 과거 조사회사별 신뢰도를 이용해 조정하면 실제 격차가 6%보다 더 작을지 아니면 더 클지 추정해 볼 수 있음. 한국의 황당한 여론조사법 때문에 이 결과를 발표할 수 있을지는 모르겠지만. 

Posted by 바이커 sovidence

사회과학연구에서 전통적인 서베이 자료를 이용한 연구의 비중은 점점 줄어들고 있다. 


아래 그림은 요즘 사회과학계의 신성, 라지 체티가 2012년에 발표했던 최근 경제학 4대 탑 저녈 출판 트렌드. 첫 번째 그림이 기존 서베이를 이용한 논문의 비중이고, 아래가 행정자료를 이용한 논문의 비중. 2010년에 경제학 4대 저널에서 기존 서베이 이용 논문은 평균 20% 정에 불과. 반면 행정자료를 이용한 논문이 50%를 넘어섬. 나머지 30% 정도는 실험 등 자체적으로 자료를 모은 경우임. 


사회학에서도 세어보지는 않았지만 행정자료나 신규자료를 이용한 논문이 증가하고 있음. 


앞으로 서베이 자료만을 이용하는 연구자는 매우 반짝이는 clever한 아이디어가 없으면 사회과학 탑저널에 출간하기가 점점 어려워질 것. 


그런 면에서 한국의 사회과학 수준을 업그레이드하는 최고의 방법은 고퀄 데이타를 제공하는 것. 현 유경준 통계청장은 데이타 개방에 매우 적극적(이 분 재직시절 개시한 MDIS 시스템은 아무리 칭찬해도 부족)이지만, 행정자료를 이용한 연구는 아직도 걸음마 단계를 벗어나지 못하고 있음. 연구자가 접근 가능한 세금자료와 서베이자료를 링크한 자료도 전무한 실정. 


반면 유럽복지국가 사회과학연구자들이 사용하는 자료는 눈이 휘둥그레질 지경. 


최근 미국과 한국이 아닌 국가의 연구비 신청 프로포잘을 리뷰했는데, 구축하고자 하는 자료가 다음과 같음. 


1990년대의 센서스와 2010년대 최근 센서스를 링크시킴. 대략 각 센서스에서 20%가 롱폼이니 두 개를 링크시키면 4%의 국민이 링크됨. 이렇게 하면 1990년대 부모 세대와 같이 살던 자녀가 성인이 되어 2000년 센서스에 포착되는 샘플을 따로 추출할 수 있음. 


그 다음에 국세청의 자료를 이용하여 부모 세대의 각 연도별 소득을 모두 링크하고, 그 다음에 교육부 행정자료를 이용해서 구체적인 출신학교, 고교, 대학 성적, 학력고사 과목별 성적, 그리고 어릴 때 측정했던 IQ 등을 모두 링크함. 마찬가지로 자녀 세대의 소득, 구체적인 출신학교, 고교 대학 성적, 학력고사 성적, IQ 등을 모두 링크 시킴. 센서스 롱폼 조사에서 물어봤던 온갖 자료와 교육부/국세청 행정자료를 부모와 자녀에게 모두 링크시킨 초고퀄 데이타가 형성됨. 


이 연구를 제안한 연구자가 국가 기관에 이런 자료를 만들려고 하는데, 해줄거임? 하고 물어봤더니 국가 기관에서 해준다고 함. 단 자료 유출은 안됨. 


연구자는 이 자료를 이용해서 부모 세대와 자녀 세대의 사회이동 결정 요인(개천에서 용이 남? 그 결정 요인은 뭐임?)을 연구하고자 하니, 해당 국가 과학연구재단에 연구비 달라고 신청. 


이런 자료를 이용한 연구 논문이 탑저널에 제출되는데, 한국 연구자가 KLIPS 같은 자료를 이용한 연구로 논문을 제출하면 받아주겠음? 아주 세련된 새로운 방법론이나 매우 놀라운 결과가 없으면 채택되기 쉽지 않음. 한국 사회과학자들이 SSCI 논문을 출간할 수 있도록 도와주는 최선의 방법이 바로 고퀄 데이타를 주는 것.  


이 프로포잘에서 제안한 통계방법론은 별로 좋지도 않았지만, 기초통계만 내더라도 그 결과를 보고싶은 욕망이 마구마구 넘쳐남. 당근 연구지원을 해야 한다고 심사평을 제출. 돈낼테니 이 연구에 나도 끼워주면 안되냐고 이멜 보내고 싶은 심정. 


어쩌다보니 운이 좋아서 미국에서 행정자료를 이용한 연구를 진행하고 있는데, 연구자로써의 생산성을 생각하면 한국 연구를 확대하려는 계획은...  



Posted by 바이커 sovidence

고용정보원 보도자료


여러 언론에서 보도한 자료인데, 국내 621개 직업만족도를 조사했더니 판사, 도선사, 목사 등의 만족도가 1,2,3위로 나왔다고 함. 교수는 8위. 


"2016년도 재직자 조사"에 바탕한 결과인데, 고용정보원이 국내 621개 직업별 재직자 30명 이상씩 19,127명을 대상으로 직업별 만족도를 조사한 결과라고 함. 


여러 사람들이 이 조사의 타당성에 대해서 의문을 제기했는데, 이런 조사는 너무 진지하게 받아들이기 보다는 재미로 보는 앙케이트 수준의 조사로 취급하는게 좋음. 


샘플링 방법에 대해서 의문을 가질 수도 있지만, "직업"이라는 변수에 특히 관심이 많은 나로써는 621개 직업의 분류법에 대해서 여러 생각할 거리가 있음. 


이 포스팅의 주제는 사회과학 전문가 외에는 아무도 신경쓰지 않을 그런 주제. 하지만 사회과학을 하는 사람들은 심지어 이런 것도 따진다는걸 보여주는 것도 의미가 있을 듯. 




다른 사회과학보다 사회학에서 직업 변수는 매우 중요함. 거의 모든 계급론이 직업 변수를 이리저리 리코딩해서 계급을 분류함. Hauser & Warren, Grusky, Torche 등 쟁쟁한 계층론 연구 사회학자들이 경제학자는 소득을, 사회학자는 직업에 관심이 많다고 주장. 


하지만 직업분류는 reliability와 validity 모두에서 논란이 될 수 있음. 


거의 모든 정부 조사에서 세분류로써의 직업과 산업은 응답자가 정하는 것이 아니라 응답자가 자기 직업이 무엇인지 설명을 하면 그 기록을 나중에 coding 하는 사람이 보고서 직업 코드를 부여하는 것. 몇 백개 되는 직업 코드표를 들고다니면서 조사하는게 아님. 


그러다 보니 coder에 따라서 직업 기준과 분류가 상당히 달라짐. 과거의 연구에 따르면 심지어 1-digit 단순 분류법을 사용해도 coder에 따른 불일치 확률이 1/4을 넘어감. 세분류로 들어가면 coder에 따라서 직업분류가 달라지는 확률이 1/3이 넘음. 


직업세분류는 reliability가 매우 낮음. 





그렇다면 validity는? 


고용정보원 조사를 보면 "재료공학기술자" "해양공학기술자" "전기안전기술자" "전기감리기술자"는 세분하고, 연구원도 "연료전지개발 및 연구자" "태양열 연구 및 개발자" "태양광 발전 연구 및 개발자" "물리학연구원" 등으로 세분했는데, 교수는 전공에 상관없이 하나로 퉁침. 


이 분류에서 태양을 연구하는 교수는 직업이 무엇일까? "태양열"과 "태양광 발전"을 모두 연구하는 교수는? 


사회학자의 경우 (1) 노동연구원에 소속된 연구원과 (2) 대학에 소속된 교수의 경우 직업이 다른 것인가? 아니면 사회학자라는 같은 직업인가? (3) 단과대학 학장을 맡고 있는 사회학자는 일반 사회학자와 다른 직업인가? 이 번 고용정보원 조사에서는 세 경우 모두 직업이 다름. 


도대체 직업이 측정하는 차원은 무엇인가? skill set 인가? 그렇다면 (1) (2) (3)의 격차보다는 공통점이 많을 것. authority 인가? 그러면 (1)=(2) < (3), 아니면 소속 조직? 이 경우 (1) != (2)= (3). 아니면 다른 그 무엇인가? 


일상 생활에서 누구나 사용하고, 많은 사람이 그 의미를 안다고 확신하겠지만, 따지고 들어가면 직업변수의 internal validity는 상당히 낮음. 





ILO에서 발간하는 국제표준직업분류에 따르면 크게 분류하면 직업의 종류는 10개고, 세부적으로 들어가면 7천개가 넘어감. 


예를 들어 회계사의 경우, 10개 대분류에서는 전문가, 2-digit 중분류에서는 재무 및 행정 전문가, 3-digit 세분류에서는 재무 전문가, 4-digit 세분류로 들어가면 그제서야 회계사가 됨. 회계사도 추가로 나누는데 공인회계사, 경영회계사, 세금회계사 등으로 세분함. 


그런데 없던 직업이 생기고, 같은 이름을 가진 직업이라도 시간이 가면 하는 일이 바뀌는 경우가 있기 때문에 ILO의 분류법도 10-20년마다 약간이라도 변화함. 현재 사용하는 버젼은 2008년 버젼.  


한국 통계청의 직업 분류도 인구총조사 때마다 변화했는데, 일관성이 너무 없어서 심지어 1-digit으로 분류해도 다른 해의 인구총조사를 연속적으로 비교하기 어려움. 


어떻게 이렇게 황당하게 할 수 있냐고 한탄하는 분들이 많은데, 한편으로는 이렇게 될 수 밖에 없는게 직업 변수의 특징임. 





계급론으로 다시 돌아가 어디까지 직업을 분류해야 "계급"으로써의 의미가 있을까? 맑스주의자와 베버리안은 대충 1-digit으로 분류하고, Durkheimian은 disaggregate 계급론이라고 해서 3-digit을 가공해서 계급이라고 주장함. 


뭐가 맞을까? 뭐가 맞는지 검증할 기준이 사실 모호함. 





종합하면 직업이라는 범주는 연령, 소득과 같이 변화하지 않는 fact가 있고 그 fact에 맞게 응답하는지 측정 오차를 알 수 있는 변수가 아님. 사회학에서 인종 변수가 사회적으로 구축(socially constructed)된다고 하는데, 직업은 직업 타이틀에 의미를 부여하는 사회적 구축과정과 데이타 작성자(=coder)의 제한된 인식에 근거한 무작위 분류 과정의 혼합물임. 





그렇다고 직업이 의미가 없는 건 또 아님. 특정 직업(예를 들어 의사)이 다른 특정 직업 (예를 들어 초등학교 교사, 내지는 철도운전사)보다 더 사회적 명망이 높고 소득도 높다는 것은 거의 모든 사회에서 거의 몰역사적으로 공통적으로 나타남. 이를 일컬어 Treiman Constant라 부름. 계층론 연구 학자들은 Treiman Constant가 사회학의 유일한 법칙이라고까지 얘기함. 


어떤 경향성을 보이는 연속변수로써의 의미를 직업이 가진다는 것. 이 때문에 명목변수인 직업변수를 연속변수인 직업위계변수로 변환시켜서 분석하는 경우도 많음. 


직업은 개인의 identity를 형성하는 영역으로도 큰 의미를 가짐. 특히 전문가들은 직업적 정체성이 그들의 삶의 의미를 주는 큰 부분임. 


하지만 소프트웨어 프로그래머가 삼성에 입사해서 20년 넘게 다니다가 이사 타이틀을 단 후 퇴사하면, 자신의 정체성이 삼성맨인지 소프트웨어 프로그래머인지, 아니면 회사원인지, 아니면 회사중역인지 따지기 어려워짐. 아마도 여러 직업분류의 혼합으로써 자신의 정체성을 형성할 것. 


그렇다면 직업은 심리(예를 들어 행복)처럼 카테고리컬한 변수로 측정할 수 없는 어떤 latent한 변수가 아닌가라는 생각 마져 듦. 

Posted by 바이커 sovidence