중앙일보 칼럼. 논문 링크

 

최저임금이 1% 오를 때 고용이 0.5%씩 줄어든다는 매우 충격적인 논문과 칼럼. 

 

그래서 논문을 후다닥 살펴봤는데 좀 이해가 안됨 (이 번 포스팅은 전문지식이 없는 분들이 읽기에는 조금 어려울 듯. 블로그 글로 어울리지 않는 테크니컬한 내용이지만 중앙일보에 실린 매우 강한 주장이라 걍 씀). 

 

이 논문에서 연구 방법론 기술에 오류가 없다면, 종속변수는 지역별 고용률의 변화 dE = ln(E_t) - ln(E_t-1)임. first difference임. 종속변수 자체가 고용률의 변화임. 그런데 모델은 지역 고정효과모형(FEM)을 사용. FEM은 통계 효과의 측면에서 demeaned regression임. 지역 효과 fixed effects를 모두 통제함으로써 각 지역별 mean 효과를 모두 0으로 맞춰주는 그런 분석임. 이렇게하면 회귀 분석 값은 지역 "내" 변화에 따른 독립변수와 종속변수의 관계를 볼 수 있음. 

 

김낙년 교수의 분석은 일반적으로 사용하는 FEM 모델에 first difference 변수를 사용함으로써 FDM을 FEM에 삽입한 꼴. 제가 과문한 탓인지 사회학에서는 이런 식으로 분석하는 패널 모형을 본 적이 없음. 경제학에서는 사용되는 모형인지? 

 

이 논문처럼 FDM을 FEM에 삽입하여 분석하면 종속변수가 지역별 고용률의 변화가 아니라, 지역별 고용률 변동의 변화가 됨. 예를 들어 3개년도의 고용률이 70% (t1)--> 73% (t2) --> 74% (t3)로 바뀌면 일반적인 FEM에서는 3%포인트 증가, 1%포인트 증가로 2개 관찰값이 종속변수가 되지만, 김낙년 교수의 방법론에서는 3%포인트 증가에서 1%포인트 증가로 감소한 -2%포인트 1개 관찰값이 종속변수가 됨. t1과 t3 사이에 전체 고용률이 4%포인트 증가했는데, 종속변수는 -2%포인트 감소하는 것이 되어 버림. 고용률을 예로 들었는데, 고용률이 아니라 ln(employment)로 해도 함의는 같음. 

 

이에 반해 독립변수(= 최저임금에 영향을 받는 인구의 비율)는 first difference가 아닌 FEM에서 일반적으로 사용하는 lagged variable을 사용하였음. 따라서 독립변수는 t2 시점에서의 t3의 최저임금 인상에 영향을 받는 집단 비율의 demeaned value임. 

 

개념적으로 두 개 시점만으로 단순화해서 표현하면 rho{[dE(t3-t2) - dE(t2-t1)], dF(t2-t1) | X}를 계산한 것이 김낙년 교수의 베타값. 

 

이 경우 김낙년 교수의 분석은 최저임금에 영향을 받는 인구의 변화에 따른 고용률 등락폭 변화의 평균임. 고용률 변화의 평균이 아님. 이 수치가 의미가 있는 것임? 

 

이러한 분석은 연간 성장률을 계산할 때 연평균 성장률 변화의 평균으로 연평균 성장률을 계산하는 것과 같은 문제가 아닌지? 

 

 

 

 

또한 가중치가 제대로 적용된 것인지 의문. 논문에 제대로 안적은 것인지, 아니면 제가 못찾은 것인지 모르겠음. 이 논문에서 분석 단위는 통계청에서 제공하는 시군임. 그런데 통계청에서 광역대도시 내 구별 단위의 자료는 제공하지 않음. 따라서 광역시 전체가 하나의 유닛이 됨. 반면 작은 군도 하나의 유닛임. 어쩔 수 없는 자료의 한계인데 이를 보완하기 위해서는 인구수에 따른 가중치를 부여해야 함. 그러지 않으면 인구수가 작은 시군의 효과가 과장되게 대표되고, 전체 노동 인구의 절반을 차지하는 8개 광역시도의 효과가 과소 대표됨. 가중치를 제대로 적용했는지? 

 

 

 

 

그래서 지금 지적한 문제가 논문의 실제 오류라면 최저임금이 오르면 고용이 줄어든다는 김낙년 교수의 결론이 바뀌는가? 그건 알 수가 없음. 편향의 방향은 부정정일수도 긍정적일수도 있음. 따라서 이 논문으로 알 수 있는 것은 아무 것도 없는 것 아닌지?  

 

 

 

 

이게 제가 논문을 살펴보고 가지는 의문인데, 제가 뭘 놓치고 있는 건가요? 이 블로그를 보시는 경제학자분들께 조언을 구합니다. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. Anansi 2019.05.21 17:35  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 글 보고 논문을 출근길에 후딱 봤습니다. 일단 종속 변수가 고용률은 아니고 고용입니다. 고용 증가가 그리 크진 않다면, 저 차이(로그 값의 차이) 고용률과 얼추 비슷할 것이고요.

    추정 자체는 표준적인 panel data 추정으로 생각됩니다. 교수님 글을 보고 처음에는 DID와 FE 모형을 같이 썼나, 했는데 그건 아닌 것 같더라구요... 저도 계량전공자는 아니라서 여기까지만 적겠습니다.

    • 바이커 2019.05.21 17:40  댓글주소  수정/삭제

      로그변환 후 격차를 계산했기에 종속변수는 고용 증가률입니다. 본 글에 고용률을 예로 든 것은 설명의 편의를 위해서고요. DID가 아니고 FD 입니다. 표준적인 패널 모델이지만 일반적으로 FE와 같이 쓰지는 않습니다. 둘 중 하나만 선택하죠.

  2. 아난시 2019.05.21 17:41  댓글주소  수정/삭제  댓글쓰기

    네. 맞습니다. y_it에서 y_it가 고용이라는 말씀이구요. 따라서 로그 디퍼런스가 고용(증가)율 된다는 말씀이었습니다.

  3. 아난시 2019.05.21 17:45  댓글주소  수정/삭제  댓글쓰기

    DID 대목은 제가 FD를 오기했습니다.

    • 바이커 2019.05.21 17:47  댓글주소  수정/삭제

      알겠습니다. FE로 DID 설계를 했다면 도리어 말이 되는데, FD를 FE에 넣었다는게 맞는건지...

  4. 아난시 2019.05.21 17:51  댓글주소  수정/삭제  댓글쓰기

    그점은 저도 의문입니다... dd 없이 추정한 결과를 보고 싶다고 생각했어요. 김낙년 교수가 해명한 대목은 못찾겠더라구요.

  5. 아난시 2019.05.21 18:29  댓글주소  수정/삭제  댓글쓰기

    ww2.mynewsletter.co.kr/kcplaa/201608-5/4.pdf

    http://davidcard.berkeley.edu/papers/fed-min-wage-var.pdf

    기본 모형 자체는 Card(1992) 논문에서 그대로 온 것 같구요. 이정민 교수 논문도 같습니다.

    독립변수가 차분 변수인 것은 대충 고용증가율이고, 통제변수를 제외하고 오른 쪽의 F_{it-1}의 경우 일종의 시간당 임금변화율의 도구 변수처럼 활용되고 있습니다. 이건 Card(1992)에서 사용한 방법을 그대로 가져다 쓴 것이고요.

    부족한 제 지식으로는, Card 논문을 보면 기본적으로는 FD 계량 모형이지만 스트럭추럴 모델을 리듀스드 폼으로 바꾸는 과정에서 FE 텀 처럼 보이는 것이 들어간 것으로 보입니다.

    김낙년 교수가 모형 도출 과정을 명시적으로 밝히지 않아서 생긴 혼란인 듯 합니다.

    • 바이커 2019.05.21 23:26  댓글주소  수정/삭제

      알겠습니다. 감사합니다.

    • 열쇠 2019.05.22 14:07  댓글주소  수정/삭제

      이정민 교수 논문, Card (1992) 논문, 그리고 Card (1992) 방법론을 계승하는 논문들을 대충 훑어보니 이정문 교수 논문의 reduced form 추정식에 더욱 의문이 생기네요.

      delta_t - delta_t-1 을 tao_t로 새롭게 정의하는 것도 rho v_i,t + (e_i,t - e_i,t-1)을 alpha_i + u_i,t로 정의할 수 있다는것 자체가 잘못된 재정의로 보입니다. Card (1992) 모델은 기본적으로 세팅이 FD입니다. Card (1992)을 인용한 다른 연구들 중에서 FD랑 FE를 섞은 모델을 찾기 어렵네요.

    • 바이커 2019.05.22 18:26  댓글주소  수정/삭제

      열쇠/ Card 모델이 영향변수 between i 의 격차로 최저임금 효과를 검증하는거 아닌가요? 제가 잘못이해하는건가요? FE를 하면 demeaning이 되어서 Card 모델의 기본 설정이 사라지는거 아닌가라는게 제가 가진 실체적인 질문입니다.

      우변에 인구변화의 d를 설정한 것도 몇가지 의문이 있고요.

    • 열쇠 2019.05.23 13:14  댓글주소  수정/삭제

      네 맞습니다.

      이정민 교수 논문, 김낙년 교수 논문 둘 다 구조식을 잘못 유도해서 FE를 정당화했다고 봅니다. Card 모델을 따라했다고 했지만 사실은 아닌 셈이죠.

      그리고 아래에 333님이 말씀하신대로 시군을 cluster로 해서 clustered standard errors를 구하면 결과가 많이 달라질 것이라 봅니다.

    • 바이커 2019.05.24 10:17  댓글주소  수정/삭제

      감사합니다.

  6. ㅇㅇ 2019.05.21 22:57  댓글주소  수정/삭제  댓글쓰기

    이해하기 어렵지만 고용률 등락폭의 변화는 누가봐도 이상하네요
    그리고 논문을 이용해서 기사를 써서 대중들에게 알려주는건 매우 위험하다고 봅니다
    그 분야 전문가들도 같은 논문을 가지고 관점이 다른데 해당분야를 모르는 대중들에게 논문 결과만 갖고 맞다 틀리다를 논해선 안되죠

  7. 아이누린 2019.05.22 05:46  댓글주소  수정/삭제  댓글쓰기

    저는 문외한이라 판단할 능력은 없지만 모경제학 교수님 말씀으로는 김낙년교수님 회귀분석에 능통하지 못하시다고...

  8. LH 2019.05.22 20:04  댓글주소  수정/삭제  댓글쓰기

    경제학자 조언이라고 말씀하셔서, 오랜만에 글 남깁니다. 지적하신 부분과 의문에 전적으로 동의합니다. 적어도 제가 보기에는 놓치고 계신 것이 있다고 보이지 않습니다.

    • 바이커 2019.05.22 20:41  댓글주소  수정/삭제

      감사합니다. 설사 제가 제기한 문제가 김낙년 교수의 오류가 맞더라도 결과는 변하지 않을 수 있습니다. 지역 고정 효과를 제거하여 demeaned되지 않게 만든 후 between i의 효과를 측정했을 때 그 정도를 모르니까요.

  9. 333 2019.05.22 20:59  댓글주소  수정/삭제  댓글쓰기

    저도 바이커님께서 말씀해주신 부분이 이상하다고 느꼈습니다.

    김낙년 교수님이 인용한 Dube, Lester & Reich(2010)에서는 county fixed effect가 통제되지만 그때는 종속변수든 설명병수든 차분변수가 포함되지 않죠.

    패널모형에서 individual fixed effect를 통제하면 베타계수가 between individuals 비교가 아니라 within individual across time이니깐, 여기다가 차분변수를 넣는다는 건..좀 이상하네요. 제 계량공부가 부족해 명확하게 풀어서 설명하기는 어려운 것 같습니다.

    그런데 일단 논문에서 강건, 표준오차, 군집과 같은 단어로 ctrl+F를 해보니 표준오차에 대해 clustered by county도 되지 않은 것 같던데요..하셨으면 다행이지만 표준오차의 크기를 보아하니 error term clustering 아마 안하신 것 같아요.

    김낙년 교수님의 논문모형을 전혀 안바꾸고 스타타 마지막 줄에 ,vce(cl county)만 추가로 입력해줘도 지금 나타난 결과의 통계적 유의미성 몇 개는 사라질 것 같아요.

    • 바이커 2019.05.22 21:13  댓글주소  수정/삭제

      저는 within estimator가 음의 값이 나오는 이유는 우변에 실업률(dU), 인구변화(dP)의 FD값을 넣었기 때문은 아닌가라는 의심이 있습니다. dP의 탄력성이 1이상인데 이는 인구증가가 자연증가분 뿐만 아니라 고용증가로 인한 유입인구를 반영한다는 의미로 저는 해석합니다.

      따라서 dP를 우변에 통제하면 자연 인구 증가분 이상의 고용증가 효과를 설명하는 종속변수와 endogenous한 변수가 됩니다. 그 나머지 효과로 F의 효과를 검증하니 음의 값이 나오는거 아니냐는거죠.

      김낙년 교수님이 1) FEM & 2) 우변의 두 개 차변 변수를 제거한 후에도 결과가 로버스트 하다는 것을 보여주면 이 모든 의문에 답이 되긴 합니다.

    • 333 2019.05.23 01:08  댓글주소  수정/삭제

      말씀드린 Dube et al.(2010)에서는 차분 없이 좌변에 log(employment), 그리고 우변에 log population, log unemployment가 통제되고 있네요. 여기서도 log pop가 1이상의 값이 나옵니다. 말씀해주신대로라면 Dube et al.(2010)논문에도 상당한 문제가 있다고 볼 여지가 있겠네요.

      김 교수님이 차분만 안하셨으면 얼추 Dube et al.(2010)이랑 비슷한 모형을 추정한 것이라 볼 여지도 있었을텐데 희안하게 지역간(between states) 변이를 추정하는 카드 논문을 언급하시면서 지역별 고정효과를 통제해버리시니 혼란이 발생하는 것 같군요.

      정리하자면 김낙년 교수님께서 깊은 뜻을 가지고 모형을 만든 것이 아니라 선행연구에서 모형을 따온 것일 경우 차분변수를 분석대상으로 삼은 Card(1992)를 참고했을 경우 d(ln(pop))가 아니라 d(emp/pop)를 우변에 통제하고 시군별 고정효과를 통제하지 말았어야 할 것이고,

      Dube et al.(2010)를 참고했다면 양변에 차분변수를 사용하지 말았어야 할 것 같아요.

      앞서 말씀드렸듯 저는 패널분석에서 통상 사용되어야 할 군집효과를 고려한 표준강건오차(clustered standard errors)로 t값을 추정하면 통계적 유의미성은 몇 개 결과에서 사라질 것이라고 보고 있습니다.

      낙성대 연구소 연구자분들이 쌓아올린 시계열 자료나 사료들에 대해서 제가 평가할 능력은 전혀 없지만 이분들 중 상당수가 계량경제학에 대한 지식은 약간 미흡한 점이 있다고 느꼈습니다.

    • 바이커 2019.05.23 06:53  댓글주소  수정/삭제

      자세한 설명 감사합니다. 크게 도움이 되었습니다.

  10. 지나가다가 2019.05.23 04:28  댓글주소  수정/삭제  댓글쓰기

    지나가다가 그냥 하나 남깁니다만, 김낙년 교수의 분석에 따르더라도 최저임금 1%가 올라갈 때 고용률 감소는 본문 서두의 0.5%가 아니라 0.05%로 나타난거여서... 이 정도면 충격적이라 하긴 어렵지 않을까 합니다.

    • 바이커 2019.05.23 09:37  댓글주소  수정/삭제

      좀 더 생각해봤는데 이건 별 문제가 안될 것 같습니다. 왜냐하면 .05%의 탄력성은 고용증가율에 끼친 영향이니까요.

      한국에서 연간 고용이 30만명씩 늘어나는 것이 평균이라고 가정하면 고용증가율이 1.5% 정도인데 최저임금 10% 인상으로 고용증가율이 1.0% 로 감소하면 10만명이 줄어드니까요.

      그런데 상수항이 모형1에서 .0423인데 왜 이렇게 높은지 모르겠습니다.

    • 지나가다가 2019.05.23 10:24  댓글주소  수정/삭제

      확실히 상수항은 왜 그런지 모르겠습니다. 위에서 지적하신대로 고용률의 변화를 보는건데 시군별 고정효과를 넣는 바람에 저리된건지 다른 이유인지는 모르겠습니다만.

    • 바이커 2019.05.23 10:37  댓글주소  수정/삭제

      막연히 추정해보면 상수항을 해석할 생각이 없었기에 지역, 연도의 평균으로 상수항이 나오게 모형을 짜지 않고, 임의로 지역, 연도 고정효과의 reference group을 넣었나 싶습니다. 기술통계에서 dE의 평균값을 제시해주면 좋을텐데요.

  11. 저도지나가다가 2019.05.24 02:11  댓글주소  수정/삭제  댓글쓰기

    저도 지나가다 글을 남깁니다. 좌변에 growth rate (or log difference)를 두고 우변에 fixed effect 를 두는것 자체는 문제가 없다고 생각하고요, 다만 계수의 해석이 말씀하신것처럼 달라질 뿐입니다 (i.e. 같은 지역에서 고용률의 trend 를 통제한 상태에서 독립변수의 한단위 증가가 고용률을 trend와 비교했을때 더 높이는지 낮추는지, i.e. 고용증가율이 평균에 비해 높아지는지 작아지는지). 이것도 경제학적인 의미가 있기 때문에 이 자체가 문제된다고 생각이 들지는 않네요.

    그리고 만약에 좌변에 dlogE_t - dlogE_t-1 이 있고, 우변에 어떤 변수 X (e.g. 최저임금)의 log difference가 있다고 가정하면 (i.e. dlogX_t -dlogX_t-1), 사실 문자적으로는 "X의 증가율"이 1단위 증가할때 "E의 증가율"이 몇단위 증가하냐 이지만, 선형회귀를 가정한 상황에서는 이게 결국은 log E_t 를 log X_t 에 회귀시키는것과 같기 때문에 X의 1% 증가가 E를 몇% 변화시킬수 있는지로 해석할수 있지 않나 싶네요.
    i.e. dlogE_t=beta * dlogX_t + e_t
    v.s.
    logE_t = beta * logX_t + a_t
    logE_t-1 = beta * logX_t-1 + a_t-1

    fixed effect 의 존재 때문에 저 두 beta가 수학적으로 동치라고 볼수는 없지만, 결국 fixed effect 라는것 자체가 내생성 문제를 최소화 하기 위해 데이터 상의 variation 중 내가 무엇을 사용할지를 규정해주는것일 뿐이기 때문에 (위 논문의 경우에는, 같은 지역에서 cross-time variation만 보겠다는 것), 궁극적으로 고용률의 임금탄력성을 계산한다는 측면에서는 문제가 없지 않나 싶네요.

    다만 저 논문에서는 F라는 영향변수를 독립변수로 두고 회귀분석을 한 뒤에 X의 증가율이 F에 미치는 영향을 별도로 계산하는 방식으로 했기 때문에 계량적으로 저게 타당한지는 잘 모르겠습니다.

    논문을 꼼꼼히 본건 아니어서 제 얘기가 틀릴수도 있습니다 :) 매번 외국 저널에 실린 논문만 보다가 오랜만에 한국어로 된 논문을 보다보니 흥미롭기도 하고 해서 지나다가 글을 남겼습니다 :)

    • 바이커 2019.05.24 10:09  댓글주소  수정/삭제

      제가 노동경제학 전공자가 아니라 뭔가 고려하지 못한 사항이 있을 수는 있는데, 앞서의 댓글에서도 말했지만 이 경우 지역 간 최저임금에 영향받는 인구의 구성비 격차로 최저임금의 효과를 검증한다는 Card model에서 벗어나게 됩니다.

      그리고 FE에서 종속변수를 ln(E)로 하냐 dE로 하냐에 따라 결과는 정반대로 달라질 수 있습니다.

    • 저도지나가다가 2019.05.24 10:50  댓글주소  수정/삭제

      fixed effect 를 넣고 안 넣고에 따라 결과가 당연히 달라질수 있죠. 사용하는 variation이 달라지니까요. 그렇지만 그것이 안 넣는게 맞고 넣는게 틀리다거나, 그 반대를 주장하는 근거가 되지는 못한다고 생각합니다.
      Card model 을 잘 몰라서 자세히 얘기할수는 없지만, 저는 그냥 순수하게 reduced-form 측면에서 생각해본 것이었습니다.

    • 바이커 2019.05.24 11:34  댓글주소  수정/삭제

      원칙적으로 맞는 말씀이긴한데, 그 정도 이해는 여기 댓글다는 분들이 다들 하고 있다고 보여집니다.

      김낙년 교수의 논문은 Card model과 같은 문제의식에서 시작합니다. between variation이죠. 그런데 제 지적은 현재의 설정으로는 between variation은 사라지고 within만 남는다는 것입니다. Card 모델이 아니게 됩니다. 문제의식의 출발점과 모델이 다릅니다. 그럼 왜 dE의 within variation을 보는게 맞냐는 정당화가 있어야 하는데 이 걸 잘 못찾겠더군요.

      그리고 종속변수와 독립변수 모두 차분값을 썼다면 그래도 이해할 수 있는데, 보셨다시피 종속은 차분값의 demeaned 값이고, 독립은 차분없이 demeaned 값입니다. 제 포인트는 종속도 차분없이 하면 결과가 달라질 수 있다는 겁니다. (여러번 반복하지만 안달라질도 있습니다). 저는 차분없이 하는 것이 맞다고 생각하는데 (그 이유는 나중에 기회가 되면 밝히겠습니다), 제가 뭔가 잘못이해하는게 있을 수 있습니다.

      위에 다른 선생님들의 지적은 FE를 쓴 기존 연구들은 종속변수에 차분값을 쓰지 않았다는 것이고요. 기존연구는 차분값을 쓰면 FE를 하지 않고, FE을 쓰면 차분값을 쓰지 않았습니다. 한가지 예외가 이정민 교수인데, 열쇠님은 이 분의 유도식이 잘못되었다고 합니다.

      왜 김낙년 교수는 기존 연구와 다른 방법론을 썼는지, 이 방법론이 왜 정당한지를 밝혀야 한다는거죠. 논문에서 이 부분을 보완하여 발표할 것으로 예측합니다.