처음 글은 전문적 지식이 없는 분들에게 조금 어려웠을 것. 이 포스팅에서는 왜 김낙년 교수의 방법론에 문제가 있다고 생각하는지 조금 쉽게 설명하고자 하지만... 전문 지식이 없는 분들은 여전히 이해하기 어려울 것. 다만 FDM, FEM에 대한 기초적인 이해가 있는 분들은 제가 왜 최저임금 효과 측정에서 FD에 FEM을 추가하면 안된다고 보는지 이해하실 수 있을 것. 

 

김낙년 교수의 방법론은 작년과 올해의 고용자수 격차(이를 first difference, FD라고 함)를 종속변수로, 올해 최저임금 인상으로 영향을 받는 인구의 비중을 독립변수로 사용함. 

 

각지역별 데이터가 2008-2018년까지 여러 해인데, 지역별 효과를 더미변수로 모두 통제하는 고정효과모델(FEM)을 추가. FEM의 효과는 demeaning인데, 이는 모든 지역의 종속, 독립변수의 평균값이 0으로 맞춰지도록 바꾸는 효과. 그래서 지역별 격차가 모델에 끼치는 영향은 사라짐. 남는 것은 지역 "내"에서의 독립변수의 변화에 따른 종속변수의 영향. 

 

일반적으로 지역고정효과를 통제하는 것이 인과관계추정에 더 근접했다고 여겨짐. 김낙년 교수는 아마도 그래서 지역고정효과를 추가했을 것. 2016년에 노동연구논집에 실린 이 전 연구의 사례도 있고. (논문을 알려주신 아난시님과 논문의 문제점을 지적해주신 열쇠님께 감사!)

 

하지만 김낙년 교수식의 분석은 최저임금의 효과를 둘러싼 논의의 실체에서 벗어나게 됨. 

 

최저임금 논쟁은 최저임금을 올리면 고용이 줄어드느냐임. 최저임금을 올렸을 때 고용증가가 0이면 최저임금은 고용을 줄이는 것이 아님. 그런데 김낙년 교수의 종속변수는 고용률의 연도별 격차가 아니라 고용증가률의 격차임. 이 경우 로그전환한 고용이 첫해에 10.3에서 20% 정도 올라 10.5가 되었다가 그 다음해에 10.5로 유지가 되면, 0 - .2 = -.2로 마치 고용이 줄어드는 것과 같은 효과가 발생함. 

 

예를 들어 보면 좀 더 쉬울 것.

 

김낙년 교수의 방법론은 지역 내 효과만 보기 때문에 한 지역의 사례를 들어서 설명하는 것으로 충분. 아래 표에서 최저임금에 영향을 받는 사람(F)이 10%였을 때는 고용이 10.9에서 변하지 않다가, 최저임금에 영향을 받는 사람이 15%가 되었을 때는 고용이 줄기는 커녕 매년 20%씩 증가함. 최저임금을 더 크게 올려서 최저임금에 영향을 받는 사람이 20%가 되었을 때는 고용이 첫해에 10% 줄었지만, 그 다음 부터는 고용이 줄지 않고 유지됨. 한 가지 상기할 점은 F가 변하지 않는 것은 최저임금을 올리지 않았다는 의미가 아님. 최저임금 인상에 영향을 받는 인구의 비율이기 때문에 F가 변하지 않아도 최저임금은 오른 것. 최저임금을 매년 10%, 15%, 20%씩 올렸다는 것과 유사한 의미임.

 

따라서 아래 표와 같은 상황은 최저임금을 10년 동안 지속적으로 해가 갈수록 더 크게 올린 것. 이 지역에서 고용이 시작 해에는 10.9였다가 마지막 해에는 11.4로 .5 만큼 증가. 이는 고용이 50% 넘게 증가했다는 의미임 (실제로는 65%지만 이해를 돕기 위해 지수전환하지 않음). 10년에 걸친 최저임금의 무지막지한 인상은 고용의 엄청난 증가를 초래했다고 결론 내려야 함. 

 

아무리 후퇴해서 해석해도 최저임금이 고용에 부정적 영향을 끼쳤다고 말할 수는 없음. 단 한 해 year 7에 year 6 대비 고용이 줄었을 뿐. 

위 상황에서 고용(=lnE)과 최저임금(=F)의 상관관계는 강한 정의 상관임. 상관관계값이 .87

 

그런데 이 상황에서 김낙년 교수처럼 종속변수를 고용(=lnE)이 아니라 고용의 변화 (=d(lnE))로 바꾸고, d(lnE)와 F의 관계를 보면 부정적 상관을 보이게 됨. 상관관계 값이 -.13. 최저임금이 고용에 부정적 영향을 끼친다는 황당한 결론을 내리게 됨. 

 

최저임금과 고용에 대한 논쟁은 최저임금이 고용을 줄이느냐 아니냐인데, 김낙년 교수 모델은 최저임금이 고용증가율을 낮추는가 아닌가로 바꾼 것. 이렇게 치환시키면 위에서 예를 든 것처럼 최저임금이 고용을 늘려도 증가율만 낮아지면 최저임금의 영향이 부정적인 것으로 나타남.  

 

그래서 종속변수 FD일 때 지역고정효과를 삽입하면 안된다고 저는 주장하는 것. 

 

그럼 김낙년 교수가 원래 참고로 삼았던 Card 모델은 무엇인가. Card 모델은 같은 지역의 연도별 변화를 보는 것이 아니라, 지역 간 차이를 보는 것. 각 지역별로 전년도 대비 고용 변화(=d(LnE))와 F의 관계를 보는 것. 

 

김낙년 교수의 모델은 틀렸다고 생각하지만, 김낙년 교수의 주장인 최저임금이 고용을 줄인다는 것이 이 방법론적 문제로 틀렸다고 말할 수는 없음. 모델에서 지역고정효과를 제거하고 원래 Card의 아이디어인 지역 간 격차로 효과를 다시 측정하면 결과가 어떻게 나올지 알 수 없음. 만약 김낙년 교수가 지역고정효과를 유지하고 싶다면 종속변수를 차분값(=d(lnE))이 아니라, 고용(=lnE)으로 해야한다고 생각. 

 

이상이 제가 FEM에서 종속변수로 차분값을, 독립변수로 차분하지 않은 값을 쓰면 안된다고 생각하는 이유임.  

 

 

 

 

Ps. 추가적 문제점으로 clustered standard error를 사용하면 유의도가 달라질 것이라는 333님의 지적

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 안개 2019.05.27 09:38  댓글주소  수정/삭제  댓글쓰기

    통계는 잘 모르는데 교수님 포스팅만 보고 몇가지 여쭤봅니다.

    1) 위의 예시에서 lnE는 stationary한 변수가 아닌데 그렇게 단순하게 lnE와 F 간의 regression을 하는 것이 의미가 있나요? 상관관계 0.87이라는 값이 의미가 있는 숫자인지 잘 모르겠습니다.
    2) stationary하게 만들기 위해 d(lnE)를 보고, F를 d(W)라고 단순하게 생각했을 때, d(lnE)와 d(W) 간의 상관관계를 구했을 때 음수라면 W와 lnE가 음의 기울기로 관계되어 있다고 볼 수 있는 것은 아닌가요?

    설명 감사드립니다.

    • 바이커 2019.05.27 10:30  댓글주소  수정/삭제

      잘 모르신다고 해놓고 이렇게 날카롭게 공격하시면 반칙입니다~

      위 설명은 좀 더 직관적인 이해를 돕기 위한 것입니다.

      말씀하신대로 F를 d(w)의 대리로 보고 d(lnE) 와 F의 관계를 볼 수 있다는데 동의합니다. 비교 단위에서 이전 시기의 level에 대해 고려할 필요가 없고, 최저임금이 부정적 효과가 있을 때 d(lnE)가 음의 값이어야만 하는 경우가 아니라면요. 지역 간 비교가 그런 경우입니다.

      하지만 위의 예를 다른 모든 변수에 변화가 없고 고용변화가 오직 최저임금에 의해서 이루어진다고 가정하면 d(lnE)와 F의 비교는 의미를 상실한다고 생각합니다. 최저임금이 9년 동안 285% 상승했는데, 고용은 50% 늘어난게 위 결과니까요.

      계속 말씀드리지만 저도 뭔가 놓치는 것이 있을 수 있습니다.

    • 바이커 2019.05.27 10:43  댓글주소  수정/삭제

      개인적인 느낌으로 최저임금 논쟁은 라페커브 논쟁을 닮았다는 생각입니다. 최저임금은 언젠가는 반드시 고용에 부정적이니까요. concave 커브의 derivative를 구해서 x의 증가에 따라 derivative 변화가 음이라는걸 보여주는게 무슨 의미가 있나 싶습니다.

  2. 안개 2019.05.28 01:04  댓글주소  수정/삭제  댓글쓰기

    생각해보니 F가 dW/W=d(lnW) 이니까 d(lnE)와 F=d(lnW)를 regression 해서 d(lnE) = Aㆍd(lnW) + B라면 heuristic하게 lnE = AㆍlnW + Bt + C 이니까 E = exp(Bt+C)ㆍW^A 형태로 생각할 수 있지 않은가요? A가 음수라면 W와 E가 음의 관계로 되어있는 것이고 예시에서 둘 다 증가한 것은 W와는 관계없는 B 때문이 아닌가 싶습니다. W의 증가로 인한 E의 감소보다 시간 흐름에 따른 E의 증가를 나타내는 팩터인 B의 영향이 더 크게 설계된 예시라서, W의 증가에도 불구하고 E가 증가한 것 같습니다. 실제 데이터에서는 어떤지, 또 B의 의미가 무엇일지 궁금하네요.

    그리고 말씀하신 지역 간 비교모델과 지역 내 모델의 차이가 단순한 demeaning 뿐이라면 이게 위의 분석에 큰 차이를 만들 것 같지가 않은데, 하나에선 말이 되고 다른 하나에선 의미를 상실한다는 부분이 이해가 잘 되지 않습니다.

    또 위의 모델에는 이차미분항이 등장을 안 하는 것 같은데 concavity가 왜 논의되는지도 잘 모르겠습니다.

    질문이 좀 많네요. 설명 감사드립니다.

    • 바이커 2019.05.28 18:10  댓글주소  수정/삭제

      이전 연도의 고용 자료가 있기 때문에 Et-1을 Bt+C로 가정할 필요가 없습니다.

      (1) Et = Et-1 * W1^A
      (2) Et-1 = Et-2 * W2^A
      thus,
      (3) dlnEt = dlnEt-1 + AdlnW
      dlnEt = dlnEt-1 + AF

      위의 예시에서 최저임금 외에는 영향이 없다고 가정했고, 최저임금 인상률이 0일 때 고용은 당연히 변화가 없습니다. 우변이 모두 0이이면 좌변도 0이어야 합니다. 이런 가정을 만족시키도록 no-constant 회귀 모델을 위 예시로 측정하면 F의 효과는 음이 아닌 양의 수로 바뀝니다.

      김낙년 교수 모델에서는 래그 dlnE를 통제하지 않았습니다. 어제(그저께인가요?) 발표된 황선웅 교수 모델에서는 래그 변수를 통제했더니 김낙년 교수와 비슷한 모델을 썼는데 최저임금 효과가 사라졌습니다.

      현실에서는

      (4) Et = Et-1 * W1^A * X^B

      이므로 모델은 더 복잡해지겠죠.

      지역 간 격차를 보면 dlnEt-1 자료가 없는데 이 효과가 랜덤하다고 가정할 수 있다고 생각합니다.

  3. 안개 2019.05.29 08:29  댓글주소  수정/삭제  댓글쓰기

    아 말씀을 듣고 보니 B=0으로 놓은 모델을 쓰면 A가 양수가 되고, B도 regression해서 구하는 모델을 쓰면 A가 음수가 되는 상황이네요. 정리해주셔서 감사합니다.

    만약 d(lnE)가 F의 크기에 관계없이 linear하게 변한다면 말씀하신대로 F=0일 때 d(lnE)=0여야 하니까 B=0이고 A도 양수라고 하는 게 맞을 것 같습니다.

    만약 그렇지 않고 특정 값 근처(데이터 값)에서의 F의 변화에 대한 d(lnE)의 기울기를 보려고 하는 것이라면, F=0일 때를 가정할 수 없기 때문에 B도 변수로 두고 계산해서 A가 음수인 게 맞는 것 같기는 한데, 이렇게 보면 말씀하신대로 W가 증가할 때 E가 감소하느냐의 문제가 아니라 다른 문제가 되는 거군요.

    자세한 설명 감사드립니다.

    • 바이커 2019.05.29 11:20  댓글주소  수정/삭제

      덕분에 저도 좀 더 명확하게 생각해볼 수 있었습니다. 감사합니다.

      Bt+C는 그 자체로 E의 측정이기 때문에, B를 regression하는 모델에서는 종속변수를 dlnE가 아니라 lnE로 해야 하는 것이 아닌가 생각합니다. 처음에 얘기했던 FD를 FE에 추가하는 문제가 여기서 발생하는 것 아니냐는거죠.

  4. 행인 2019.06.24 09:37  댓글주소  수정/삭제  댓글쓰기

    김낙년 교수는 식민지 근대화론 관련된 자료들에서 많이 뵌 분 같은데 이런 연구를 하시는군요 잘 봤습니다!