뉴욕타임즈 기사: Pandemic Aid Programs Spur a Record Drop in Poverty

Urban Institute 전체 보고서

서울신문 칼럼

 

아래 그래프에서 보다시피 코로나 이후 미국에서 전연령대, 전인종, 전지역에서 빈곤율이 격감했다. 2018년 13.9%에서 2021년 추정 7.7%로 거의 절반으로 줄었다. 이유는 간단. 전국민 재난지원금을 대량으로 지급했고, 실업보험료를 인상하고 더 오랫동안 지급했고, 기존 빈곤 프로그램을 확대했기 때문. 

 

미국은 코로나 위기에 천문학적인 금액을 국민지원에 사용하였다. 서울신문 칼럼에도 썼지만 GDP 대비로 봤을 때 한국의 5.7배에 달한다. 1인당 지원의 절대액이 5배를 넘는다는게 아니라, GDP 대비 비중에서 5배 넘으니까, 절대액으로 보면 10배가 넘는다. 뉴욕타임즈 기사를 읽어보면 지원규모가 얼마나 엄청났는지 감을 잡을 수 있다. 한 미혼모는 팬데믹으로 연봉 3500만원 일자리에서 실직이 되었는데, 실업보험, 재난지원금, 자녀들의 푸드스탬프 등으로 실직 상태에서 오히려 소득이 30% 이상 늘었다. 

 

 

문재인 정부에서 80% 지급이니 100% 지급이니 하는 논란으로 몇 개월을 끄는 것은 한심하기 그지없었다. 80%든 100%든 규모를 더 키우는게 더 중요했으니까. 

 

한국에서 재난지원금을 확대하고 빈곤 감소, 불평등 감소의 효과가 크게 나타났을 경우, 이에 기반해 사회보장 프로그램을 확대하고, 지속가능성을 높이기 위해 증세해야 한다는 분위기, 최소한 논쟁을 불러일으킬 수 있었지만, 안타깝게도 문재인 정부는 이 위기를 기회로 전환하는데 실패했다. 

 

 

 

미국에서 코로나 기간 동안의 사회보장 정책 효과가 워낙 뛰어났기에, 이 정책을 규모는 축소하더라도 연장해야 한다는 목소리가 높다. 세전 불평등을 줄이는 것은 어렵지만, 세후 빈곤율을 줄이는 것은 정책적으로 충분히 가능하다. 한국에서도 작년 재난지원금 지급 직후 가계동향조사 결과에서는 불평등과 빈곤이 감소했었다. 

 

원리는 간단하다. 빈곤과 불평등은 모두 소득의 절대액에 더 민감하다. 국가에서 세금을 소득에 비례해서 많이 걷고, 이렇게 걷은 세금을 동일한 절대액으로 배분하면 빈곤과 불평등이 줄어든다. 빈곤과 불평등을 줄이는 것은 정책의 질이 아니라 양이다. 빈곤과 불평등을 줄이기 위해서 세금을 얼마나 누진적이고 진보적으로 걷는지보다, 세금의 총액이 훨씬 더 중요하고, 정책적으로 하위계층을 얼마나 잘 타겟으로 하는 것보다 하위계층에게 돌아가는 절대액을 늘리는 것이 훨씬 더 중요하다. 

 

정치적 경제적으로 감당 가능한 범위 내에서 소득 비례 세금과 배분 절대액을 기회가 있을 때마다 최대한으로 높이는 것이 최선의 사회보장 정책이다. 이것이 팬데믹 기간 중에 빈곤이 줄어든 미국에서 배워야할 교훈이다. 

 

 

 

Ps. 위 그래프에서 보다시피 팬데믹 사회보장 효과로 빈곤이 격감하기 전에도 최근 7~8년간 미국에서 빈곤은 꾸준히 줄어들었다. 트럼프 4년 동안 빈곤이 상당히 감소했다. NYT 기사에서는 언급하지 않았지만, 특히 흑인의 빈곤이 트럼프 기간 동안 많이 줄었다. 경제성장은 빈자들에게 도움이 된다. 

 

Pps. 미국의 돈풀기는 자산가치를 높여서 자산불평등을 심화시켰다. 한편으로는 불평등이 심화되었지만, 다른 한편으로는 빈곤이 줄었다. 빈곤 축소와 자산불평등 축소를 한꺼번에 달성하기 어려울 때는 전자에 정책의 초점을 두어야 하는거 아닌지. 자산불평등에 초점을 두면 하위계층은 정책적으로 소외되기 쉽다. 

Posted by sovidence
,

The OECD Risks That Matter Survey

OECD 코로나 리스크 청년층 보고서

 

페북 이강국 선생의 포스팅을 보고 체크한 건데 (팔로하는 페북 포스팅 중에서 이강국 선생 포스트가 정보량은 가장 많은 듯), OECD에서 25개 국가를 상대로 코로나로 인한 경제적 어려움, 정신적 스트레스, 정부에 대한 태도, 어려울 때 도움을 받을 수 있는 소스에 대해 서베이했다. 표본수는 각 국가별로 1천명. 

 

그래서 결과를 보니 한국은 코로나로 인한 경제적, 정신적 충격을 입었다고 응답하는 비율은 가장 작은 국가 중 하나지만 경제적 처지에 대한 걱정은 가장 많은 국가 중 하나다. 특히 청년층에서 그 걱정은 심하다. 일반적 인식과 달리 정부 정책에 대한 신뢰도는 OECD 국가 중 중간이거나 높은 편이다. 이에 반해 친지/가족에 대한 신뢰는 낮다. 

 

 

 

 

아래는 사회적 경제적 웰빙에 대해서 걱정이 된다는 응답 비율. 한국은 가족 구성원 중 일자리를 잃을까봐 걱정된다는 비중이 가장 높고, 전반적인 걱정은 상위 5위권이다. 

 

18-29세 청년층만 보면 한국인은 자신이나 가족원의 경제적 처지에 대한 걱정에서 OECD 국가 중 2위. 

하지만 실제로 코로나로 경제적 어려움을 겪은 비율을 보면 한국은 모든 항목에서 OECD 중간 이하이고, 전체를 합치면 OECD 국가 중 최하위권. 

 

항목 OECD 평균 한국 25개국 중 등수
일상 비용 지불 못함 10.3% 4.0% 21
저축을 깨거나 자산 처분 17.8% 6.8% 25
친구나 가족에게 돈을 받음 9.1% 5.8% 15
빚을 냄 7.3% 6.7% 14
자선단체에 도움 요청 3.0% 1.8% 18
음식 부족으로 굶주림 3.9% 2.4% 16
주택을 잃음 1.3% 1.1% 15
파산 1.0% 0.7% 16
위의 것 중 하나라도 해당 31.0% 19.0% 24

 

그래서 자신이나 가족 중에서 코로나로 인해 정신적 건강과 웰빙이 영향을 받은 사람이 있는지 물어봤더니 (아래 그래프), 한국은 최하위권. 

 

 

 

걱정은 최상위권인데, 경제적 타격도 정신적 타격도 최하위권. 

 

 

 

그럼 왜 그렇게 걱정이 많은지 궁금해지는데, 그 원인이 정부는 아닌 듯. 

 

"공공지출에서 자신들의 입장을 반영해서 정부가 정책을 짠다"라는 항목에 동의하지 않는 비율(아래 그래프)은 한국이 가장 낮은 편. 정부가 자신들의 입장을 반영해서 공공지출 정책을 짠다는데 동의하는 비율이 특별히 높지는 않지만, 그렇지 않다고 생각하는 것도 아니다. 

 

다른 정부 관련 항목을 봐도 특별히 신뢰도나 기대감이 다른 국가보다 낮지 않다. 

 

그런데 한국이 어려울 때 도움을 받는 것 관련해서 다른 국가보다 유난히 낮은 항목이 있는데, 바로 친구나 가족으로부터의 도움을 받을 것으로 확신하는 정도다. 경제적으로 어려울 때 정부가 아닌 친구나 가족으로 도움을 받을 수 있을 것으로 확신한다는 비율에서 한국은 OECD 최하위다. 

 

이에 반해 같이 사는 가족 중에 누군가 일을 더해서 돈을 더 벌어올 것이라는 비율은 상위권이고, 정부가 도와줄 것이라는 기대도 낮지 않다. 

 

 

위 그래프에서 거의 모든 국가가 친구/친지가 도움을 줄 것이라는 비율이 가장 높은데, 한국만 특이하게 같이 사는 가족 중 누군가 일을 더 할거라거나, 정부가 도움을 줄 것이라는 비율이 친구/친지가 도움을 줄 것으로 확신하는 비율보다 더 높다. (네델란드도 친구/친지보다 다른 응답 비율이 높지만, 모든 응답의 yes 비율이 높고, 응답 간 차이가 크지 않음). 상당히 특이한 케이스다. 

 

 

정리하면, 한국인이 생각하는 경제적 어려움이 생겼을 때의 해결방안은, 

 

같이사는 가족 내 각자도생 > 정부 도움 >> 친구/친지 도움. 

 

누구도 정부가 자신의 가까이 있는 친구처럼 느끼지 않을 것이다. 경제적 어려움이 닥칠 때 한국인이 생각하는 해결책은, 한마디로 "가족독박 사회안전망"이다. 

 

사회적 자본의 빈자리 때문에 객관적 경제적 현실과 주관적 인식을 연결하는 고리가 끊어져 있는 것. 한국인의 이러한 사회안전망에 대한 인식 때문에 객관적 경제적 현실과 괴리된 경제적 처지에 대한 걱정이 많은건 아닌가 싶다. 

Posted by sovidence
,

MZ세대라는 개념이 큰 의미가 없다니까, 집단 개념의 구성적 측면을 얘기하는 분이 있는데, 이 쯤에서 순수 아카데믹한 이슈지만 집단 구분의 구성적 측면(=socially constructed)을 어디까지 논의할 수 있는지 소개하는 것도 괜찮을 듯. (이 기회만을 기다렸...)

 

Kim, Kim, and Ban (2020). Do you know what you do for a living? RSSM

 

대부분의 사람들이 직업이 매우 명확한 개념이라고 생각할거다. 자신의 직업이 무엇인지도 잘 알고.

 

모든 센서스와 사회조사에서 직업을 물어본다. 그런데 많은 비용을 들이는 제대로된 조사에서 직업을 물어보고 코딩하는 방식은 일반적으로 생각하는 것과 다르다. 직업이 무엇인지 묻고 타이틀을 그대로 적는게 아니다. 국제 표준으로 응답자의 직업을 알기 위해서 질문을 적어도 2개 한다. (1) 직업이 무엇인지 묻고 - 여기에 더해서 한국은 지위(rank)도 묻는다, (2) 주로 하는 일을 간단히 기술하라고 한다. 그렇게 주관식으로 기술된 내용을 전문 직업 코더가 읽고서 직업 코드를 부여한다. 

 

하는 일의 내용에 대한 주관식 질문 --> 전문 코더가 하는 일의 내용을 읽고 직업 코드 부여. 

 

이렇게 하는 이유는 직업 분류가 의외로 매우 복잡하기 때문이다. 각 국가마다 직업분류표가 다르다. International Standard Classification of Occupations (ISCO)라고 ILO에서 만든 국제표준직업분류가 있는데, 한국은 KSCO라는 비슷하지만 조금 다른 분류법을 사용한다. 미국 분류법은 또 다르다. 

 

이 표준 직업분류에 들어가는 직업의 종류는 대분류로 10개, 세분류는 52개, 세세분류는 436개, 세세세분류는 수천개에 이른다. 직업분류표가 수백페이지다. 수천, 수백개의 직업 중에서 어떤 직업에 자신이 속하는지 응답자도 정확히 모르는 경우가 매우 많다. 

 

예전에 미 텍사스주에서 하는 일의 타이틀을 조사한 적이 있는데, 무려 50만개의 서로 다른 job title이 모였다. 이렇게 50만개의 서로 다른 타이틀을 수천, 수백, 수십개로 묶어 놓은게 직업이다. 직업분류는 의외로 매우 작의적이고, 직업의 구분은 의외로 매우 구성적이다. 

 

예를 들어 대학의 "부학장"을 생각해보자. 이 직업 타이틀은 "관리자"에 들어가야 하나? 아니면 "전문가"에 들어가야 하나? 관리자냐 전문가냐는 수천, 수백개의 복잡한 분류의 문제가 아니다. 가장 단순한 직업분류인 10개 대분류에서 서로 다른 항목이다. 이걸 결정하는건 부학장의 업무 중 얼마나 많은 부분이 타인을 관리하는가에 따라 달라진다. KSCO기준은 80% 이상의 업무가 관리여야 한다. 이 원칙에 따르면 어떤 부학장은 관리자고, 어떤 부학장은 전문가로 분류될 수 있다. 같은 타이틀의 부학장이라도 업무 분장에 따라 직업 대분류가 바뀌어야 한다. 직업은 원칙적으로 mutually exclusive해서 같은 일이 동시에 2개 이상의 직업이 될 수 없지만, 실제로 많은 사람들이 2개 이상의 직업에서 하는 일을 하나의 일자리에서 동시에 수행한다. 

 

직업분류의 원칙에 대한 기술을 실제로 읽어보면 더 헷갈린다. 독일 직업분류의 원칙으로 Geis rule이라는게 있다. 한 사람의 일은 한가지 직업이라기 보다는 여러가지 직업에서 하는 일의 믹스인 경우에 많은데, 이 때 여러가지 일 중에서 가장 낮은 직업 카테고리로 분류될 일로 직업을 정하는게 원칙이다. 이 경우 대기업 전자회사 과장은 관리자도 전문가도 아닌, "준전문가" 내지는 "사무원"으로 분류될 수 있다. 중소기업 사무보조원과 대기업 과장이 같은 직업으로 분류될 가능성을 배제할 수 없다는 것.

 

위에서 예로 든 80% 관리 업무 기준 때문에 한국 공식 직업 통계에서 관리자의 비율은 1~2% 밖에 안된다. 다른 국가는 10%에 가까운 비중이 관리자인데 한국은 관리자 비율이 매우 작다. 한국의 직업 고도화가 비슷한 수준의 타국가 대비 유난히 낮아서가 아니라 직업분류의 원칙이 다르기 때문이다. 이 때문에 직업 10개 대분류를 사용해도 국가 간 비교가 쉽지 않다.  

 

어느게 맞는 분류인지 며느리도 모른다. 소득은 주로 정확한 액수가 있고 서베이가 얼마나 이를 잘 측정하는지 알아보는 "측정오차"의 문제지만, 직업은 코더들의 의견이 얼마나 일치하는지 알아보는 "합의"의 문제다. 어떤 분류가 다른 분류보다 더 맞다고 할 수 없다. 즉, 직업은 그 개념이 본질적으로 매우 구성적이다. 

 

그래서 위에 링크된 논문은 서로 다른 직업코더가 동일한 직업에 대한 응답을 보고 서로 다른 직업코드를 부여할 확률이 얼마나 되는지 연구한거다. 이 연구가 가능했던 이유는 KGSS에서 직업 코딩의 정확성을 높이기 위해 복수의 코더에게 동일한 서베이 응답을 보고 직업을 분류하는 실험을 한 적이 있기 때문이다. 

 

그랬더니 2명의 서로 다른 코더가 10개 직업 대분류에서 불일치하는 비율이 무려 31.3%에 이른다. 426개 직업 세분류로 들어가면 불일치률이 50.9%로 절반이 넘는다. 사회학에서 많이 사용하는 EGP (7개) 계급 분류의 불일치율은 34.2%. 

 

이 결과가 사회학 계급 연구와 관련된 여러 함의에 대해서도 논문에서 논의하고 있다. 

 

그래서 결론은? 직업과 직업에 근거한 계급 개념은 매우 구성적 측면이 있기에 주의해서 써야하고, 직업 분류에서 같이 묶인 직업은 비트겐슈타인이 말한 가족유사성의 개념으로 이해해야 한다. 

 

 

 

Ps. 많은 사람들이 객관적 실체라고 생각하는 직업분류도 이런데 어떤 기준으로 분류하는지 정해진 원칙이 없는 세대 분류는 오죽 하겠는가. 편의나 재미를 위해 쓸 때 쓰더라도 문제점은 알고 쓰는게 좋다. 

Posted by sovidence
,

한경뉴스: 자산 상위 1% 기준은 12억

 

저는 매크로 계산 어떻게 하는지 잘 모른다. 여기서 하는 얘기는 불평등 연구자의 입장에서 감을 잡기 위한 그저 대충 back-of-the-envelope으로 한 계산이다. 그래도 불평등과 관련된 함의는 비스무리하게 맞지 않을까 싶다. 

 

한경 기사에도 나와있지만 한국에서 자산 상위 1%는 강남에 괜찮은 아파트 한 채 가지고 있는 정도이다.

 

여기서 두 가지를 알 수 있다. 하나는 강남 괜찮은 아파트에 살면서 저축이 좀 있으면 한국에서 상위 1%에 드는 상류층이라는 것. 그러니 강남 살면서 아파트 한 채 밖에 없기 때문에 중간이라거나 서민이라는 인식은 좀 수정하길.

 

다른 하나는 (극히 일부를 제외하고) 자산 소득으로 삶을 영위할 수 있다는 환상을 버려야 한다는 것. 자산 상위 1%에 들어도 자산소득 기반 생활은 불가능하다. 강남 아파트 한 채 밖에 없는데 무슨 금융소득과 자산소득을 그렇게 올리겠는가? 한국에서 노동소득이 아니라 자산소득에 의존해서 벌어놓은 돈 까먹지 않으면서 중상층(연소득 1억 이상)의 삶을 영위할 수 있는 사람은 상위 0.5% 정도에 불과할 것이다.  

 

왜 그렇게 생각하는지 여전히 그저 대충 계산하는거지만, 그래도 조금 더 근거를 가지고 추정해 보자. 

 

 

 

 

양경숙 의원이 제공하여 기사화된 자료 소스 몇 개를 종합하면 아래와 같은 추정이 가능하다 (소스는 요기, 요기, 요기). 아래 표에서 총소득과 점유 비율은 기사에서 제공된 자료고, 추정소득액과 1억 이상 소득자수 추정은 그저 대충 계산한 것이다. 

 

계산 방식은 3개 상위 계층별로 점유 소득의 평균을 내고, 상위 0.1%의 평균과 상위 0.2~1.0%의 평균 사이의 소득, 두 지점의 관찰치로 R-squared=1.0의 무지막지한 회귀돌렸다 (그러니까 단순 1차 방정식 계산하는 산수했다). 이 두 평균 사이의 분포가 선형이라고 가정하고, 1억 이상 소득자수를 추정하였다. 

 

기사에 따르면 소득이 보고된 총인원은 대략 2415만명이다. 

  이자소득 배당소득 임대소득
2019년 총 소득 17조 9561억 22조 7300억 20조 7250억
소득 점유 비율      
- 상위 0.1% .1743 .4700 .0489
- 상위 1.0% .4546 .6930 .1628
- 상위 10.0% .9100 .9310 .4800
       
1인당 추정 소득액      
- 상위 0.1% 1억 2960만원 4억4240만원 4197만원
- 상위 0.2~1.0% 2316만원 2332만원 1086만원
- 상위 1.1~10.0% 376만원 249만원 302만원
       
1억 이상 소득자수 추정  4만3천명 10만3천명 5천명 미만

 

기사에 나온 소득 구간별 비중 표는 종합소득에 따른 분류가 아니고, 각 소득별 천분위로 보인다. 따라서 위 표에서 소득원천별 1억 이상 소득자수의 추정치는 서로 다른 사람이 아니고 일부는 겹칠 것이다.

 

위의 추정치로 대충 통밥을 굴려보면 한국에서 이자, 배당, 임대소득으로 1억 이상의 소득을 버는 인구는 개인으로는 14만명 미만이고, 가구수로는 아마 10만 가구 정도일 것이다. 한국의 가구수가 2021년 현재 2천만 조금 넘으니까, 대략 0.5%다. 근로소득이나 사업소득이 아닌 이자, 배당, 임대소득으로 연소득 1억 이상의 중상층 생활이 가능한 가구는 한국에서 0.5%라는 얘기다. 

 

위 표에서 임대소득 상위 0.1%도 평균 4천만원 밖에 안된다. 1억 이상 소득자수로 5천명 잡았지만, 숫자가 너무 적을 것 같아서 그냥 5천명이라고 쓴거다. 회귀식으로는 아예 계산이 안나온다. 물론 탈세나 소득 축소 신고도 무시하기 어려울 것이다. 하지만 임대소득으로 많은 소득을 올리는 건물주는 극소수다. 다들 잘 모르지만, 건물 관리비 생각보다 많이들고 감가상각 상당하다. 건물로 돈 벌기 의외로 쉽지 않다. 

 

 

 

 

이쯤 당연히 다른 나라와의 비교가 궁금할 것이다. 

 

미국은 소득 상위 1%는 전체 소득에서 노동/사업소득보다 금융소득의 비중이 크다 (소스는 요기). 대략 60%의 소득원이 노동/사업이 아니라 금융소득이다. 미국의 가구수가 대략 1억2천만이니까, 이 중 상위 1%면 120만 가구다. 적게 상정해도 1백만 가구에서 노동소득보다 금융소득이 많다.

 

미국은 상위 1%와 나머지의 불평등이 노동소득에서 금융소득으로 넘어갔다. 그러니 언론과 학자들이 매일 그렇게 이 문제를 떠드는 것이다. 

 

 

 

 

한국은 미국과 달리 그런 인구가 소수다. 금융소득이 노동/사업소득보다 높은 상층은 미국과 비교가 안될 정도로 작다. 한국에서 금융소득이 2천만원 이상인 인구는 13만명 정도다 (소스는 요기). 인구로 치면 상위 0.5%다. 이들의 전체 소득 중 이자와 배상소득을 합친 금융소득이 차지하는 비중은 47%다. 전체 소득에서 금융소득이 비중이 50%가 넘는 집단은 1만명 정도 밖에 안된다. 인구 중 0.04%만 노동소득이나 사업소득보다 금융소득이 더 크다. 이것도 금융소득이 높은 순으로 sorting했을 때 이렇게 나온다. 전체 소득으로 sorting하면 그 비율은 더 줄어들 것이다.  

 

즉, 한국의 상위 1%, 20만 가구 중에서 노동소득보다 금융소득이 많은 가구는 아무리 많이 잡아도 그 중 5%인 1만 가구 정도일 것이다.  전체 가구의 0.05%다. 

 

 

 

 

그래서 결론은? 한국에서 중상층 이상의 삶을 영위할려면 금융소득이 아니라 노동소득이 높아야 한다.

 

그러니 한국에서 불평등의 가장 첨예한 이슈는 노동소득과 사업소득(= 자영업자 문제)이지, 불로소득이 (적어도 아직은) 아니다. 지난 몇 년 간 불로소득의 불평등이 늘었고, 앞으로 이 문제가 더 심각해 질 가능성이 크다. 하지만 지난 몇 년 간 불로소득 불평등의 증가에도 불구하고, 노동소득의 불평등이 줄어서 전체적인 가구 불평등은 감소하였다. 정책적으로 말하자면, 최저임금이나 고용보험이 인민의 실제 삶과 관련해서는 주식 양도소득 상한 보다 훨씬 더 중요한 이슈다 (자본소득 과세 중요하지 않다는 얘기는 절대 아니다).

 

 

 

Ps. 금융소득이 아니라 노동소득이 중요하다는 얘기는, 인적자본이 중요하다는 얘기고, 여전히 한국에서는 삶의 질을 결정하는데 교육이 가장 중요하다는 말이다. 영끌이니, 주식이니, 비트코인이니, 곱버스니 이런게 장기적 삶의 질을 결정하는게 아니다. 

Posted by sovidence
,

연합기사: 직장인 MZ세대 1인가구 월소득 350만원…지원금 못 받을듯

 

만 40세에 이른 1981년생과 이제 21살인 2000년 출생자를 하나로 묶어서 같은 세대로 규정하고 이들 1인가구의 월소득이 350만원이라서 지원금을 못받을 것이라는 연합뉴스의 보도에 한심하고 황당하다는 반응들이 많이 보인다. 

 

그런데, 이상한 이름을 붙인 세대론은 사회과학자의 입장에서 원래 그렇게 황당한 컨셉이다. 

 

며칠 전 Washington Post에 매릴랜드대 사회학자이자 인구학자인 필립 코헨의 칼럼이 실렸다. 제목은 "세대 라벨은 아무런 의미가 없다. 이제 그만 사용할 때다 (Generation labels mean nothing. It’s time to retire them)". 

 

이 칼럼이 실리기에 앞서, 필립 코헨이 주도하고 150여명의 사회과학자들이 서명해서, Pew Research Center에 세대 용어의 사용 중단을 요구한 공개 서한이 발송되기도 했다. Pew Research Center는 세대 개념 사용 중단을 내부적으로 논의하기도 했단다. 

 

다들 알듯, 미국에서도 세대 개념은 언론에서 많이 사용한다. 밀레니얼, X 세대, 베이비부머 등을 개념을 모두 들어봤을 것이다. 재미있는 용어이고 때로는 마치 무슨 큰 함의를 지닌듯이 느껴지기도 한다. 

 

하지만 이 개념들은 황당하게 쓰이는 경우가 많다. 연합뉴스 기사에서 40세 중년의 소득과 노동시장에 대부분 들어와 있지 않은 21살 청년의 소득을 평균내는 것이 그 예이다. 이 용어 사용을 마케팅적 팬시함으로 용인하기에는 실제 현실을 가리는 부작용이 크다는게 상당수 사회과학자들의 판단이다. 

 

공개 서한에 따르면 "세대를 이름짓고 출생연도별로 나누는 것은 가짜과학(pseudoscience)을 퍼뜨리는 것이고, 대중의 이해를 저해하고, 사회과학 연구를 방해한다" 또한 "대중적으로 사용되는 세대 명칭은 제대로된 코호트와 생애사적 연구를 방해한다."

 

이런 결론이 일부 사회과학자들만의 주장은 아니다. 작년에 The National Academics of Sciences Engineering Medicine에서 <Are Generational Categories Meaningful Distinctions for Workforce Management?>라는 책을 냈다. 15명의 꽤나 유명한 사회과학자들이 종합 검토한 결과는 "세대 규정"이 별로 유용하지 않다는 것이다. 

 

종합검토의 결론은 "사회과학 연구들은 세대론에 근거한 격차의 증거를 거의 발견하지 못했다"는 것이다. 그럼에도 다른 해에 태어난 사람들이 뭔가 다른 특성과 가치관을 가지고 있다는 인식이 어떤 어필이 있는데, 이는 인간은 상황을 카테고리로 나누고 단순화하는 성향이 있기 때문이라는 것. 이런 성향이 위험을 인식하는 것에는 유용하지만, "선입견, 편견, 스테레오타이핑"으로 이끌기 쉽다. 그래서 세대론에 근거해서 경영을 하기 보다는 개인의 니즈에 더 주의하라는게 결론. 

 

MZ세대라는 정체성은 없고, MZ 세대 규정을 뒷받침하는 사회과학적 진실은 없다. 

Posted by sovidence
,

조선일보 기사: 이준석 대표 당선 후, 20대女 국민의힘 지지율 1%…野 “표본수 적은 탓”

 

더불어민주당의 20대 여성 지지율은 27.6%. 

 

조선 기사를 보면, 국민의힘 쪽의 설명은, "위 조사의 20대 여성 표본수는 57명이다. 이때 오차범위는 13.9% 이상에 달한다. 즉 0%에서 27.8% 사이의 지지율은 같거나 차이가 없다는 의미”

 

라고 하지만, 이런 주장이 맞을리가. 

 

표본수 57명에서 오차범위 ±13.9%는 교과서에서 배우는 계산법으로, 영어로는 asymptotic 방법에 근거할 것이다 (13.9%라는 숫자가 정확히 어디서 나왔는지는 모르겠다. 13.0%인데 착각한건가?). 우리말로는 어떻게 표현하는지 모르겠지만, 일종의 근사치로 계산하는 방식이다. 언론에 보도되는 오차범위는 일반적인 asymptotic 방식에 한 가지 조건이 더 붙는데 이는 비율이 50%일 때의 오차범위다. 이렇게 비율이 50%일 때의 오차범위를 최대표집오차(maximum sampling error)라고 하는데 일반적으로 그냥 표집오차라고 부른다. 정확한 표본비율의 오차는 (1) 표본수, (2) 신뢰범위, (3) 비율, 이 세가지에 영향을 받는다. 그 중에서 비율이 50%일 때 가장 크다.

 

이 번처럼 지지율이 1%가 되면 오차범위는 ±13.9%가 아니라 크게 줄어든다. 조사회사에서 일반적으로 보고하는 표집오차 계산법(p = p-hat ± 1.96*sqrt(phat * qhat / n)에 따르면 57명 중 1명이 국힘을 지지해서 1.75%의 지지율이 나올 때, 95% 신뢰구간은 -1.65%에서 +5.16% 사이가 된다. 

 

그런데 보다시피 이 방법으로 계산하면 신뢰구간이 마이너스가 나온다. 이는 논리적으로 오류다. 마이너스 지지율은 없으니까. 지지율은 무조건 0~100% 사이가 되어야 한다. 

 

그래서 이렇게 표본수가 작고 지지율이 낮을 때 신뢰구간을 계산하는 방법이 따로 있는데, 이중에서 Wilson's Interval method라는 방법을 적용하면,  

 

20대 여성의 국힘당 지지율은 이 번 조사에 따르면 95% 신뢰수준에서 0.09% ~ 9.29% 사이다. 

Posted by sovidence
,

KBS 세대 인식조사 그래프: 연구진 설명

 

여진이 계속되니, KBS 보도 관련 더 안쓰겠다는 말은 못하겠고, 이 번 논란의 당사자 중에 한 분인 김두얼 교수가 오늘 페북 포스팅에서 통제변수 없는 로짓 모델로 그래프를 그리면 그래프가 아래 그림의 첫번째와 같이 나온다고

 

"그 동안의 경험에 비추어보건데, 그리고 위 두 그림을 비교해 보건데, 저자들이 제시한 그림은 원자료의 실체와는 상당히 거리가 있을 것 같다는 생각이 듭니다." "아울러 길게 설명드리기는 어렵지만, 분석에서 초점을 맞추는 두 변수 외의 통제변수 때문에 이 정도로 그림에 변화가 오는 건 제 상식으로는 납득하기 어렵습니다."

 

라면서 뭔가 KBS 보도 연구진의 의도가 있다는 식으로 얘기한다. 

 

 

비즈조선(조선비즈인가?) 조모 선생만으로도 피곤한데, 여러명의 안티소비던스를 만들 것 같지만, 로짓 공부하는 학생들에게 도움이 되는 teachable moment이기에 어쩔 수 없이 제가 총대를 매고 김두얼 교수의 이 그래프가 왜 잘못되었는지 지적하고자 한다. 

 

저도 의심이 많은지라 통제변수 없는 로짓결과로 김두얼 교수와 똑같이 그래프를 그려봤다. 그랬더니 김두얼 교수가 그린 그래프처럼 나오더라. 이렇게 나오면 안된다. 그래서 연구진들이 데이터에 무슨 조치를 취한 건지 reverse engineering을 해봤다. 

 

리버스 엔지니어링을 할려면 기준점이 있어야 한다. 내가 한 계산이 맞는건지 확인할 수 있는 기준점. 그런데 그 기준점은 <표 3>이다. 이 표에서 20-34 남성 중 그렇다는 응답이 0.112 + 0.553 = 0.665다. 통제변수 없는 로짓으로 계산해서 이 숫자를 재현해야 한다. 

 

 

아래는 로짓 공부하는 학생들을 위한 시험 문제다. 한 번 해보시라. 이걸 어떻게 하는지 바로 아이디어가 떠오르지 않는다면 로짓 잘 모르는거다. 연습 좀 더 해야. 

 

==========

(1) 아래 로짓 결과표를 이용하여 <표 3>의 타인 도움 의향 (1)+(2)의 4개 그룹별 정확한 (오차범위 0.005 포인트 이내) %를 reverse engineering으로 도출하시오.

 

(2) 아래 로짓 결과표에서 절편값(_cons)의 정확한 의미를 해석하시오. 수학적 의미 뿐만 아니라 <표3>과 연관된 해석을 제공하시오.

 

힌트: 연구진들이 SSS(주관적 계층 인식) 변수를 변형하였음. 

==========

 

 

 

 

 

답:

==========

1. 저자들은 주관적 계층인식의 grand-mean centering 값으로 sss_m를 사용한 것으로 보임 (저자들에게 물어본거 아니고 , 통계 분석 제대로 했는지 확인할려고 제가 계산해 본 것, 그 후 연구진 설명서를 올린 임동균 교수 페북에서 질문해서 확인). 따라서 그룹별 SSS값의 4개 그룹 grand-mean과의 격차를 계산하고 이 격차값을 위 로짓통계치에 대입하여 p = exp(xB)/(1+exp(xB))로 확률을 계산하면 표3의 그룹별 (1)+(2)값이 모두 산출된다. 

 

예를 들어 20-34세 남성의 주관적 계층 인식 평균은 4.911인데, 4개 집단 전체의 평균은 4.761이다. 따라서 20-34세 남성의 타인조력 의향평균은 exp(.726-.191*(4.911-4.761)/(1+exp(.726-.191*(4.911-4.761))로 계산해야 한다. 그러면 .665가 나와서 <표 3>의 수치와 일치한다. 

 

김두얼 교수 식으로 grand-mean centering에 대한 고려없이 exp(.726-.191*4.911)/(1+exp(.726-.191*4.911))로 계산하면 .447이 나온다. 20-34세 남성의 타인 조력의향이 45%밖에 안되는걸로 잘못 계산하게 된다. 

 

2. 따라서 절편값은 SSS값이 grand-mean 일 때 기대되는 20-34세 남성 오즈의 로그 전환(=로짓)값이다. 그러니까 20-34세 남성이 4개 집단 전체의 평균 SSS를 가지면 조력 의향은 exp(.726)/(1+exp(.726)) = .674이다. 

 

참고로 2034여성/50대남/50대여 등 그룹 주효과는 SSS값이 grand-mean 일 때 기대되는 오즈"비"의 로그 전환 값이다. 절편은 오즈고 다른 계수는 오즈"비"라는게 포인트다. 

==========

 

연구진이 올린 설명에서 로짓 통계표의 Stata 코맨드에서 "sss_m"라고 되어 있는데 이 변수는 <표 1>의 SSS 점수 전체의 grand mean을 낸 후에 각각의 응답에서 이 값을 빼 준 것이다. 

 

이렇게 mean-centering을 하는 이유는 자칫하면 아무 의미없는 숫자가 될 수 있는 절편의 값에 의미를 부여하기 위해서이다. 대단히 보편적으로 사용되는 기법이다. 로짓에서 뿐만 아니라 OLS에서도 절편에 의미를 부여할려면 이와 비슷한 centering 조치를 취한다. 또한 위 로짓에서 각 그룹의 주효과는 그룹별 절편의 변화량이다. grand mean centering을 해줌으로써 각 그룹의 SSS 점수가 grand mean 값으로 동일할 때 그룹 간 격차는 얼마인지를 알 수 있다.

 

로짓은 오즈비의 로그값이기 때문에 모든 숫자가 비교 대상이 되는 베이스 라인에 따라 의미가 달라진다. 준거집단인 20-34세 그룹의 절편값에 의미를 부여하고 다른 집단과 비교함으로써 집단간 평균 격차를 알 수 있다. 

 

어쨌든 그렇게 해서 통제변수 없을 때 제가 도출하는 그래프는 아래와 같다. 

 

 

 

Ps. 기본적으로 타 연구자에 대한 존중 의식을 가져야 한다. 

Posted by sovidence
,