KBS 세대 인식조사 그래프: 연구진 설명

 

여진이 계속되니, KBS 보도 관련 더 안쓰겠다는 말은 못하겠고, 이 번 논란의 당사자 중에 한 분인 김두얼 교수가 오늘 페북 포스팅에서 통제변수 없는 로짓 모델로 그래프를 그리면 그래프가 아래 그림의 첫번째와 같이 나온다고

 

"그 동안의 경험에 비추어보건데, 그리고 위 두 그림을 비교해 보건데, 저자들이 제시한 그림은 원자료의 실체와는 상당히 거리가 있을 것 같다는 생각이 듭니다." "아울러 길게 설명드리기는 어렵지만, 분석에서 초점을 맞추는 두 변수 외의 통제변수 때문에 이 정도로 그림에 변화가 오는 건 제 상식으로는 납득하기 어렵습니다."

 

라면서 뭔가 KBS 보도 연구진의 의도가 있다는 식으로 얘기한다. 

 

 

비즈조선(조선비즈인가?) 조모 선생만으로도 피곤한데, 여러명의 안티소비던스를 만들 것 같지만, 로짓 공부하는 학생들에게 도움이 되는 teachable moment이기에 어쩔 수 없이 제가 총대를 매고 김두얼 교수의 이 그래프가 왜 잘못되었는지 지적하고자 한다. 

 

저도 의심이 많은지라 통제변수 없는 로짓결과로 김두얼 교수와 똑같이 그래프를 그려봤다. 그랬더니 김두얼 교수가 그린 그래프처럼 나오더라. 이렇게 나오면 안된다. 그래서 연구진들이 데이터에 무슨 조치를 취한 건지 reverse engineering을 해봤다. 

 

리버스 엔지니어링을 할려면 기준점이 있어야 한다. 내가 한 계산이 맞는건지 확인할 수 있는 기준점. 그런데 그 기준점은 <표 3>이다. 이 표에서 20-34 남성 중 그렇다는 응답이 0.112 + 0.553 = 0.665다. 통제변수 없는 로짓으로 계산해서 이 숫자를 재현해야 한다. 

 

 

아래는 로짓 공부하는 학생들을 위한 시험 문제다. 한 번 해보시라. 이걸 어떻게 하는지 바로 아이디어가 떠오르지 않는다면 로짓 잘 모르는거다. 연습 좀 더 해야. 

 

==========

(1) 아래 로짓 결과표를 이용하여 <표 3>의 타인 도움 의향 (1)+(2)의 4개 그룹별 정확한 (오차범위 0.005 포인트 이내) %를 reverse engineering으로 도출하시오.

 

(2) 아래 로짓 결과표에서 절편값(_cons)의 정확한 의미를 해석하시오. 수학적 의미 뿐만 아니라 <표3>과 연관된 해석을 제공하시오.

 

힌트: 연구진들이 SSS(주관적 계층 인식) 변수를 변형하였음. 

==========

 

 

 

 

 

답:

==========

1. 저자들은 주관적 계층인식의 grand-mean centering 값으로 sss_m를 사용한 것으로 보임 (저자들에게 물어본거 아니고 , 통계 분석 제대로 했는지 확인할려고 제가 계산해 본 것, 그 후 연구진 설명서를 올린 임동균 교수 페북에서 질문해서 확인). 따라서 그룹별 SSS값의 4개 그룹 grand-mean과의 격차를 계산하고 이 격차값을 위 로짓통계치에 대입하여 p = exp(xB)/(1+exp(xB))로 확률을 계산하면 표3의 그룹별 (1)+(2)값이 모두 산출된다. 

 

예를 들어 20-34세 남성의 주관적 계층 인식 평균은 4.911인데, 4개 집단 전체의 평균은 4.761이다. 따라서 20-34세 남성의 타인조력 의향평균은 exp(.726-.191*(4.911-4.761)/(1+exp(.726-.191*(4.911-4.761))로 계산해야 한다. 그러면 .665가 나와서 <표 3>의 수치와 일치한다. 

 

김두얼 교수 식으로 grand-mean centering에 대한 고려없이 exp(.726-.191*4.911)/(1+exp(.726-.191*4.911))로 계산하면 .447이 나온다. 20-34세 남성의 타인 조력의향이 45%밖에 안되는걸로 잘못 계산하게 된다. 

 

2. 따라서 절편값은 SSS값이 grand-mean 일 때 기대되는 20-34세 남성 오즈의 로그 전환(=로짓)값이다. 그러니까 20-34세 남성이 4개 집단 전체의 평균 SSS를 가지면 조력 의향은 exp(.726)/(1+exp(.726)) = .674이다. 

 

참고로 2034여성/50대남/50대여 등 그룹 주효과는 SSS값이 grand-mean 일 때 기대되는 오즈"비"의 로그 전환 값이다. 절편은 오즈고 다른 계수는 오즈"비"라는게 포인트다. 

==========

 

연구진이 올린 설명에서 로짓 통계표의 Stata 코맨드에서 "sss_m"라고 되어 있는데 이 변수는 <표 1>의 SSS 점수 전체의 grand mean을 낸 후에 각각의 응답에서 이 값을 빼 준 것이다. 

 

이렇게 mean-centering을 하는 이유는 자칫하면 아무 의미없는 숫자가 될 수 있는 절편의 값에 의미를 부여하기 위해서이다. 대단히 보편적으로 사용되는 기법이다. 로짓에서 뿐만 아니라 OLS에서도 절편에 의미를 부여할려면 이와 비슷한 centering 조치를 취한다. 또한 위 로짓에서 각 그룹의 주효과는 그룹별 절편의 변화량이다. grand mean centering을 해줌으로써 각 그룹의 SSS 점수가 grand mean 값으로 동일할 때 그룹 간 격차는 얼마인지를 알 수 있다.

 

로짓은 오즈비의 로그값이기 때문에 모든 숫자가 비교 대상이 되는 베이스 라인에 따라 의미가 달라진다. 준거집단인 20-34세 그룹의 절편값에 의미를 부여하고 다른 집단과 비교함으로써 집단간 평균 격차를 알 수 있다. 

 

어쨌든 그렇게 해서 통제변수 없을 때 제가 도출하는 그래프는 아래와 같다. 

 

 

 

Ps. 기본적으로 타 연구자에 대한 존중 의식을 가져야 한다. 

Posted by sovidence

댓글을 달아 주세요

  1. 꽈니 2021.07.02 09:47  댓글주소  수정/삭제  댓글쓰기

    명쾌하네요!! 늘 많이 배웁니다. 감사합니다.

  2. 휴.... 2021.07.02 09:59  댓글주소  수정/삭제  댓글쓰기

    안 그래도 그 분이 쓴 그 글보고 넘 화가났는데... 계속 말도 안되는 구간별 단순평균을 보여주는 것이 최선이라는 말도 안되는 소리를 계속하지 않지않나. 그건 이미 다른 분이 바이어스 베리언스 트레이드 오프를 들어서 얘기를 했었는데. 또 얘기하네요.
    이렇게 또 반박을 해주셨으니 이 쯤되면 이젠 그 분도 그냥 그만했음 좋겠네요.

    • 바이커 2021.07.02 10:38  댓글주소  수정/삭제

      세상에 모수통계 안하는 분과는 없습니다. 편향-분산 트레이트 오프의 상대적 선호만 있는거죠. 박종희 선생이 예로 든 FE vs RE/Multi 분류에서 저는 오히려 bias 문제를 중시하는 쪽입니다. KBS 그래프 문제있다고 지적하는 쪽의 통계적 입장에 가깝다는거죠. 수업 시간에 왠만하면 RE 쓰지 말라고 하거든요.

      구간별 단순평균만 봐야 한다는 말도 안되는 주장을 박종희 선생이 그렇게까지 고급스럽게 포장해줬는데, 결국 못알아들은거죠.

    • 종종 2021.07.02 19:01  댓글주소  수정/삭제

      교수님 bias 문제가 뭔가요? 전 글에서 언급하셨던 이번 연구에서만 튀었을 가능성, 즉 표본모집의편향성인가요?

    • 바이커 2021.07.02 19:17  댓글주소  수정/삭제

      https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229

      여기 설명이 이해하기 쉽습니다.

    • 종종 2021.07.02 20:36  댓글주소  수정/삭제

      오옷 감사합니다. 짧은 영어로 더듬더듬 읽었는데 그림 보고 한 방에 이해되네요!

    • 아이go 2021.10.30 13:03  댓글주소  수정/삭제

      다른 조사들은 그냥 세대별로 평균내서 올렸는데 굳이 이것만 이상한 그래프로 올렸다? 의도가 있다 봅니다.
      게다가 어떤 조사는 청년층 중년층으로만 표시하고 어떤조사는 성별까지 나눠놓았네요 나눌거면 다같이 나누고 합칠거면 다같이 합쳐야죠

    • 바이커 2021.10.31 11:43  댓글주소  수정/삭제

      이해를 못하면 음모론으로 막연한 "의도"를 의심하는게 제일 쉽죠. 많이들 그럽니다.

  3. Spatz 2021.07.02 10:10  댓글주소  수정/삭제  댓글쓰기

    아예 다른 사람들이 "문과식 열등감"이라고까지 발진하는게 무슨 의미인지 모르나 봅니다... 탈아입구하는 일본마냥 뭔 자기들이 유일한 진리를 찾는 시늉 하는 거 바깥에선 가소롭게 보일텐데 말이죠.

  4. Thank you 2021.07.02 10:39  댓글주소  수정/삭제  댓글쓰기

    감사합니다.

  5. 바이커 2021.07.02 11:21  댓글주소  수정/삭제  댓글쓰기

    저도 2번 설명에 오류가 있었는데, P모 교수님이 친절히 지적해 주셔서 고쳤습니다. 감사합니다.

  6. Socialogy 2021.07.02 12:35  댓글주소  수정/삭제  댓글쓰기

    이렇게 평균 조정을 하면 절편에 어떤 의미가 생기는지 좀더 설명해 주실수 있으신가요? 오히려 평균 조정을 했기때문에 절편의 절대값은 의미가 없어졌고, 다만 “같은 평균을 가진 분포” (역시 Gaussian-like한, 평균 조정을 통해 하나의 Z(0,1) 같은 분포로 변환가능한) 하에서 절편의 상대적 크기만을 비교할 수 있을것 같은데 이게 어떤 해석상의 이점을 주는지 궁금합니다.

    그리고 PS 커멘트는 좀 이상합니다. 피어리뷰를 거치지 않은 연구에 대해 의문을 가지는게 당연하고, 가지지 않는게 오히려 더 이상하고 타 연구자에 대한 무시라 볼수 있지 않을까요..?

    • ... 2021.07.02 12:55  댓글주소  수정/삭제

      거기 페북 게시물에 달리는 댓글 보세요. 다 어느 대학 교수하고 있는 양반들이 사기니 뭐니 대놓고 비꼬고 있는데 김두얼 교수 본인도 말리기는커녕 동조하고 있으면 그게 무시지 별 게 무시인가요.

    • Spatz 2021.07.02 13:02  댓글주소  수정/삭제

      단순한 비판이면 이런 말도 안 나왔죠. 대놓고 악플달면서 비아냥대다가 주변에서도 냉소적으로 나오니 이제서야 깨갱 한 겁니다. 본인도 그걸 조장했고요. 교수쯤 되는 양반이 비판과 "억까"식의 비난을 구분 못 할 리도 없고요;

    • 보통 2021.07.02 15:08  댓글주소  수정/삭제

      보통 누군가의 연구에 문제가 있다고 생각이 되면 먼저 이메일로 문의를 해서 사소한 의문을 해결하고, 그래도 도저히 이해를 할 수 없는 방법론을 사용했다고 판단된다면 그때가서 코멘트 논문을 쓰기 마련이죠. 강력한 비판은 최대한 상대방의 말을 귀기울여들었을 때 나온다고 생각합니다.

  7. 우석진 2021.07.02 12:58  댓글주소  수정/삭제  댓글쓰기

    로짓에서는 안해 봤지만
    일반 선형회귀 모형에서는
    센터링하고 회귀분석하는 것이랑
    상수항 넣고 그냥 회귀분석하는 것이랑 동일합니다.
    FWL theorem

    • 바이커 2021.07.02 14:19  댓글주소  수정/삭제

      네 선생님, 로짓에서도 동일합니다.

      다만 연속변수와의 상호작용 효과가 있는데, Y축의 위치가 변하니까 OLS와 마찬가지로 그룹별 절편값들은 모두 바뀝니다.

    • 신영기 2021.07.02 16:28  댓글주소  수정/삭제

      저도 궁금했는데, 잘 정리해주셔서 감사합니다.

      1. 두 분 논의를 읽다가 좀 혼란스러운 부분이 있습니다. 그냥 OLS에서 interaction term이 없더라도, x값만 re-centering하고 y는 원래값을 그냥 쓰면 intercept shift가 일어나는 것 같은데...(아닌가요?)

      2. 새로 그린 마지막 그래프에서 x축이 re-centering한 SSS값인 것 같은데, 그냥 원래 변수값 1-10으로 써도 동일한 그래프니까 변수값을 안바꾸는게 불필요한 혼란을 줄이지 않을까 싶습니다.

    • 바이커 2021.07.02 16:41  댓글주소  수정/삭제

      1. 맞습니다. constant는 바뀝니다. 하지만 상호작용효과가 없다면 그룹 더미의 계수추정치는 안바뀝니다. 그래서 "그룹별 절편"이라고 표현했습니다. 더미변수는 절편을 바꾸는거니까요.

      준거집단 변화에 따른 constant의 변이 때문에 Oaxaca-type decomposition에서 세부분해하면 identification problem이 발생하고 어떻게 normalize할 것인가에 대한 여러 논문이 있습니다. 이 문제는 경제학하시는 윤명수 선생님이 가장 권위자입니다.

      2. 그러면 그룹 간 격차가 X=0일 때의 가상적 상황이 되어서 로짓 계수의 의미가 무엇인지 파악하기 어렵게 됩니다. 설사 X=1로 centering해도 응답자가 별로 없는 1에서의 추정치라 실체적 의미가 떨어집니다.

      centering이 그래프 그릴 때는 필요없지만 계수값을 보고할 때는 유용합니다.

    • 신영기 2021.07.02 17:35  댓글주소  수정/삭제

      친절한 설명 감사합니다. (여기는 좋아요가 없어서 대댓글로....)

      2번에서는 제가 의미를 정확하게 전달 못한 것 같습니다. Nonlinear model에서는 X값의 위치가 항상 의미를 가지니까 re-centering한 부분에 대해서는 충분히 이해합니다. 사실 recentering 후에도 intercept term estimate 0.726이 정확한 의미를 가지는 게 아니고, transform한 후에 나온 0.665라는 값이 의미가 있고, 그 값도 그래프의 intercept는 아니고 실은 0.491 근처 (그리신 그래프에서는 0 근처)의 파란 그래프 값이겠지요. (죄송합니다. 제가 이해했어요..라는 얘기를 이렇게 길게 쓰네요.) 2번에서 하고자 했던 얘기는 아직 이 그래프 의미를 잘못 해석하시는 분들도 있어서 x축 tick을 -3.761 - 5.239 (x - xbar) 보다는 그냥 1-10으로 놓는게 좋지 않을까 하는 의견이었습니다. (써놓고 보니 별 중요하지 않은 내용이네요.)

      인사가 늦었습니다. 저는 (사람들이 이 문제에 대해 좀 차분하게 얘기를 나눴으면) 하는 생각을 가진 계량경제학자입니다. 앞으로도 좋은 글 부탁드립니다.

    • 바이커 2021.07.02 17:48  댓글주소  수정/삭제

      제가 공자님 앞에서 문자를 썼군요. 동의합니다. 어디 제출하는 그래프는 당연히 그렇게 그려야죠.

      가끔 들리셔서 코멘트 남겨주시면 배우도록 하겠습니다.

  8. 그분 2021.07.02 19:19  댓글주소  수정/삭제  댓글쓰기

    이제는 통계 얘기도 없고 비아냥만 있는 글을 쓰셨더군요. 대체 왜 그러시는건지 궁금할 정도.

    • Spatz 2021.07.02 21:49  댓글주소  수정/삭제

      할 말이 없어진 거죠. 대놓고 사기꾼이니 인신공격하는 댓글에도 좋아요 누르고 다니는 거 보니까 멘탈이 많이 상하긴 했나 봅니다. (좋아요 목록에 그 조귀동씨도 있더군요ㅋㅋㅋ)

      에휴... 그러길래 적당히 좀 하지.

  9. 그나저나 2021.07.02 20:53  댓글주소  수정/삭제  댓글쓰기

    자료 공개하라고 목소리 높이는 분들 중에 본인 논문 중 한 편이라도 replication package 깔끔하게 올려두신 분 있나요? 공부 좀 하고 싶어서요...

  10. 주저리 2021.07.02 23:23  댓글주소  수정/삭제  댓글쓰기

    교수님 안녕하세요. 평상시 블로그 잘 보고있습니다. 김두얼 교수의 또 다른 주장중에 하나가 본인께서 리버스 엔지니어링한 자료를 바탕으로 (본인께서 이 분석의 핵심이라고 하시는) 20대 남성과 여성 사이에 해당 질문에 “네”라고 답할 비율이 유의미하게 차이가 나지 않는다가 있는데요 이마저도 성립을 안하는게 그 근거로 제시하시는데 이대남과 이대녀의 “네” 응답비율의 95 신뢰구간이 살짝 겹친다는 겁니다.

    잘 아시겠지만 신뢰구간 겹침 != 두 집단의 평균차가 유의미하지 않다고이고, 김교수가 제시한 평균치 및 표준편차를 통해 두 집단 간 비율차이를 가설검정하하면 오히려 유의미한 차이 (정확하게 유의수준 0.02-0.03에서)가 있다 결론내려야 합니다. 사실 저는 유의수준이 0.05면 어떻고 0.07이면 어떻고 이런식의 critical p-value에 기계적으로 의존하는 practice 자체가 좀 우습다 생각합니다만..(도대체 통계학자 일군 사회과학자들에 이런식의 practice좀 관두자라고 외친지가 대체 몇년째인지….), 이 문제에 이렇게 열을 올리시는데 비해 그 핵심주장중에 하나가 이런 rookie mistake에 의존하고 있다는게 좀 의아했습니다. 그리고 단적으로 경제학자들은 다들 nonparametrics쓰고 그럼 모르겠습니다만, 당장 AER 최근호만 훑어봐도 linear+additivity가 그쪽에서도 convention 인게 자명해 보이는데 경제학 학술논문에도 요구하지 않을 스탠다드를 고작 언론보도용 분석에 집요하게 요구하는지도 저는 과문해서 도저히 이해기가 어렵습니다…

  11. 주저리 2021.07.02 23:29  댓글주소  수정/삭제  댓글쓰기

    저야 이제 이런저런걸 배워나가는 학생입장이지만, 솔직하게 이번 사태를 통해 느낀점은 이른바 페북의 현자(?)분들이 실제론 그리 대단하지 않을수도 있다입니다(!). 굳이 본문과 크게 상관도 없이 굳이 “어심토틱스”를 운운하실정도로 large-sample theory까지 섭렵하신 분께서 정작 logit의 유사 r2와 ols r2도 제대로 구분하지 못하신다거나 (K대 경영대 교수), 그 떡밥을 그대로 받아서 (유사) r2값이 너무 적으니 연구결과를 믿을수 없다는 조선일보 모 기자님이나 (이분은 개인적인 원한(?) 의해 객관적인 판단능력이 많이 흐려지신것 같습니다만….). 생산적인 논쟁을 기대했습니다만 솔직한 소감은 알만한 분들의 하나의 대환장 파티를 보는 느낌이였습니다….

    • Spatz 2021.07.03 02:10  댓글주소  수정/삭제

      당초 문제제기가 이상했으니 그 파생도 이상하게 퍼질 수 밖에요....

  12. 주저리 2021.07.03 00:32  댓글주소  수정/삭제  댓글쓰기

    지금가서 다시 원글을 확인해보니 “신뢰구간이 겹치긴 하지만, 두 집단의 평균이 차이가 있는가라는 검정을 해보면 아슬아슬하게 차이가 있다는 결론이 나옵니다” 라는 내용을 추가하셨네요. 그 사이 누군가 이 문제를 지적하긴 했나봅니다.

    • 노만커피 2021.07.03 04:25  댓글주소  수정/삭제

      더 심각한 문제는 문제의 그분은 자꾸 20대 남자와 여자를 비교하는데, 연구진의 관심은 20대 남자의 기울기가 내려가는지 묻고 있다는 것이죠. 전혀 엉뚱한 것에 열을 내고 있다는 겁니다.

    • 바이커 2021.07.03 12:10  댓글주소  수정/삭제

      그런가요? 저는 20대 남녀 간에는 통계적으로 유의한 평균의 차이가 없어보이던데.

      연구진의 설명서에 나와있는 로짓 분석의 그룹 주효과에서도 20대남 대비 20대여 효과에 차이가 있는 통계는 하나도 없습니다. 검증을 할려면 리버스 엔지니어링을 할게 아니라, <표3>을 보고 proportion difference test나 Chi-square 검정을 하면 알 수 있습니다.

    • 주저리 2021.07.03 16:19  댓글주소  수정/삭제

      제글을 다시 보니 제가 좀 헷갈리게 적어놓았네요 (제가 김두얼 교수님글을 좀 오해한 부분도 있구요).

      김두얼교수 본인께서 20대남과 20대녀의 "남과 소득을 나누겠다" 질문에 대해 "주관적 계층의식별" 긍정적 응답 비율을 직접 리버스 엔지니어 및 분석해서 올리신 페북글에 포함 된건 맞지만, "이대남과 이대녀의 긍정적 응답 비율이 다르지 않다" 라는 결론/분석은 말씀하신 보고서의 <표3> 실제 결과를 통해 도출한 것 같습니다.

      즉, <표3>에 제시된 결과에 대해, 김두얼 교수께서 1) 먼저 4개의 응답값을 2개분류로 축소하고 ("매우그렇다" + "그렇다" vs. "그렇지 않다" + "전혀 그렇지 않다"; 본인께서는 이 단순화로 결과가 크게 달라지지 않는다고 주장), 2) 긍정적 응답 비율이 이대남과 이대녀 각각 66 % 대 74 %오 나타나나 이 둘 추정치의 95 프로 신뢰구간이 서로 겹치므로, 3) 이 두 집단은 해당문항에서 유의미한 차이가 없다는 주장을 하신겁니다.

      종합하자면 보고서의 본래 결론인 "이대남과 이대녀의 해당 질문에 대한 평균적인 응답에는 유의미한 차이가 없다" 를 김두얼 교수는 1) 응답항목의 단순화 + 2) 집단간 평균(비율) 차이에 대한 잘못된 가설검정법의 조합을 통해 다소 기괴하게 도달한 것이죠.

      그리고 이후 누군가의 지적에 의해 2)번 오류 (잘못된 가설검정)를 인정하고 본인의 결론을 가설검정을 제대로하면 "이대남과 이대녀간의 아슬아슬하게 유의미한 차이가 있다"로 수정하신거니, 본인의 2)번 오류를 인정/정정하시면서 다시금 정작 가장 결정적인 결론은 보고서와 배치되는 결론에 도달하신, 그런 다소간 혼란스런(?) 그런 상황입니다.

    • 주저리 2021.07.03 16:56  댓글주소  수정/삭제

      그리고 위와같은 상황은 상당부분 기계적인 hpothesis testing에 기인하는게 아닌가 싶습니다.

      김두얼 교수의 주장대로 실제로 응답분류의 단순화가 전반적인 결과/결론에 큰 영향을 미쳤 여지는 많지 않지만, 지금 관심대상인 통계량이 boderline significance에 있고 이 분은 p-값이 critical 한 수준을 (조금이라도) 넘냐 안넘어가냐에 두 집단 간 차이가 "있다"/"없다"에 대한 판단을 필요이상으로 의존하고 있기에, 가설검증을 어떤식으로 하냐 혹은 변수를 어떤식으로 조작하냐 따라 이분이 해당부분에 대해 내리는 결론이 계속 뒤바뀌는게 아닌가 싶습니다.

      본인 전문분야에서는 충분히 존중을 받으시는 분께서 유독 이번 일에 대해서 만큼은 왜 이리 의욕만을 앞세워서 받아드리기 힘든 rookie mistake들을 반복하시는지 또 타 연구자들에 대한 무례를 범하는지 개인적으로는 다소 의아할 뿐입니다....

  13. 페북 가보니 2021.07.03 02:09  댓글주소  수정/삭제  댓글쓰기

    "사람은 할 말이 없으면 욕을 한다" 의 실사례가 하나 추가되었더군요... Basic한 부분에서 우기는 꼬라지 보니까 저런 이들이 평소에 나름 권위자랍시고 다른 분과영역 통계에 얼마나 말 얹어 댔을지 생각하면 머리가 아찔해집니다.

    • 로그 2021.07.04 03:10  댓글주소  수정/삭제

      논문 읽다가 log(wage)값을 보고 이게 자연로그가 아니라 상용로그인줄 알고 10^log(wage) 값이 실제 사람들이 소득수준과 너무 불일치한다고 진지한 포스팅을 올렸다가 자연로그라고 지적받으면 “왜 헷갈리게 자연로그를 쓰고 논문에 자연로그라고 애초에 밝히질 않았죠? 그건 그렇고, 결국 로그값을 취한다는 것은 소득불평등을 작아보이게 만들려고 통계마사지를 하는 게 아닌가요? 소득불평등의 실제격차와 같이 중요한 정보를 사상시켜버리는 게 목적이었다면 이해합니다.”라고 화를 내는 상황같군요.

  14. Econ 2021.07.03 20:11  댓글주소  수정/삭제  댓글쓰기

    깜짝. 계량경제 ucla나오고 관련 논문을 진짜 안 읽고 공부도 진짜 안했구나. 시카고에서 거시 한 학생도 응용미시 논문을 정말 조금 읽은 거 같은데 함부로 선민의식으로 뭐라 떠드는데 깜짝 놀랄정도로 무지함. 당장 jhe, he같은 보건 경제 필드만 가도 x값이 정규분포로 된 주관적 변수(건강하세요? ㅂ부터 5까지 메져)를 로짓에 부지기수로 쓰는데. 고대교수는 쑤도 r스퀘어에 대해 틀린 해석을 함.

    • 통린이 2021.07.05 08:09  댓글주소  수정/삭제

      저도 이제 배워가는 입장에서 놀랍기만 할 따름입니다. 학문적 논쟁이나 분과별 방법론의 차이로 퉁치기엔 너무나 기초적인 오류를 엄청나게 자신있게 말하고 계시더군요. 본인들의 정치적 입장 때문인건지 뭔지 참....

  15. 확인 2021.07.04 19:16  댓글주소  수정/삭제  댓글쓰기

    제가 grand mean-centering이 뭔지 이번에 처음 배워서 질문드립니다. 혹시 제가 이해를 잘못한 건지 여쭙고 싶은데... 모 연구자분이 이 포스팅을 보고

    "20-30대 남성이 다른 집단보다 얼마나 "네"라고 답했는지 하는 평균적인 수준은 사소한 정보에 불과하기 때문에, 그 정보는 제거하고 연구자들이 보기에 가장 본질적인 정보 즉 각 집단별 곡선의 기울기만 부각시키는 그림을 그리려고 했다는 것이군요..(중략)..왜 집단간 평균차이는 제거해도 되는 혹은 제거해야 했던 정보일까요?"

    라고 코멘트하셨던데, 다름이 아니라 바로 grand mean-centering을 한 덕분에 그래프 상에서 보이는 20대 남성의 평균기부의사 확률(파란색 그래프의 중간점)이 0.4~0.45가 아닌 0.66이 나올 수 있던 것 아닌가요? grand mean centering의 의도가 바로 집단간 평균의 차이를 그래프에 더 정확하게 나타내려는 것 아닌가요? grand mean centering 안하고 그래프 그리면 실제로 데이터상에는 없는 집단간 평균차이를 크게 만들어보이는 착시를 만드는 것 아닌가요? grand mean centering 안하고 그리면 그걸 더 크게 문제삼았어야 하는 것 아닐까요?

    드랍박스 6월 30일자 보고서 4쪽 각주 1번의 "평균 중심화"가 grand mean centering 맞지요?

    • 바이커 2021.07.04 19:40  댓글주소  수정/삭제

      맞습니다. 센터링을 하나 안하나 그래프는 똑 같습니다.

      센터링을 하는 이유는 그래프 때문이 아니고 로짓 계수추정치에서 둘 다--집단 간 평균격차 측정과 기울기격차 측정--를 하기 위해서입니다.

      즉, 그 연구자 분의 주장과 정반대로 센터링을 하기 때문에 로짓 계수추정치에서 집단 간 평균격차의 유의도가 드러납니다.

    • 확인 2021.07.04 21:18  댓글주소  수정/삭제

      아하 헷갈렸는데 그래프는 같군요. 회귀분석 테이블의 상수항에 직관적인 해석이 생기는 것이구요. 설명 감사드립니다.

  16. 익명 2021.07.04 20:44  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

    • sovidence 2021.07.04 21:20 신고  댓글주소  수정/삭제

      전혀 아실 필요 없습니다~

      설문 응답의 통계적 유의도 문제는 예전에 시사인 기사에서도 지적되었습니다. 그 때는 유의도가 없을 것 같은 그래프로 많은 얘기를 했는데 아무런 논란이 되지 않았죠.

  17. billybat 2021.07.08 21:35  댓글주소  수정/삭제  댓글쓰기

    매번 좋은 포스팅으로부터 많이 배우고 있습니다. 아주 사소한 사항 두 가지만 궁금해서 여쭤봅니다.
    1) 2번 설명 말미에 “절편은 오즈고 다른 계수는 오즈”비”라는게 포인트다.”라고 쓰셨는데요, 엄격하게 쓰자면 “절편은 오즈의 로그 전환값이고 다른 계수는 오즈”비”의 로그 전환값”이 맞지 않을까 싶습니다. 사실 이미 앞부분의 서술에 정확한 표현이 있는데, 너무 사소한 딴지인 것 같아 죄송하네요;;
    2) 로짓모델로부터 2034남성 평균 sss_m을 적용하여 예측한 2034남성의 Y평균과 실제 데이터로부터 기술통계로 확인한 2034남성의 Y평균(0.665)이 수학적으로 다른 것이 아닌지요? 특별한 사정이 없으면 두 값이 대체로 비슷하기야 하겠습니다만은, 엄격하게 말해서 전자로 후자를 replicate할 수는 없는 게 아닌가 싶습니다.

  18. billybat 2021.07.09 00:51  댓글주소  수정/삭제  댓글쓰기

    교수님, 감사합니다. 제가 질문을 너무 어설프게 드렸던 것 같습니다. 2)에 관해 조금 더 말씀드리자면,
    예를 들어 0/1 이분변수 y와 어떤 하나의 연속변수 x가 있을 때,
    LPM으로 y=a+bx를 분석한 후 a+b*mean(x)를 구하면 정확하게 기술통계로 구한 p(y=1)과 수학적으로 일치합니다.
    그런데 logit으로 logit( p(y=1) )=a+bx를 분석한 후 (a) invlogit(a+b*mean(x))를 구한 값은 기술통계로 구한 p(y=1)과 수학적으로 불일치하지 않는지요? p(y=1)과 일치하는 값은 (b) mean( invlogit(a+b*xi) ), 즉 개별 표본 각각에 대해 예측확률을 구하고 이를 평균한 값은 실제 y 평균과 일치하는 것으로 알고 있습니다. (a)와 (b)가 수학적으로 다른 값을 갖게 되는 것은 invlogit함수가 비선형이기 때문이겠습니다.
    위의 사례에서도 제가 제시된 정보의 소수점을 최대한도로 이용해서 2034남성의 (a)를 구해보면 0.6676 정도로 나오는데요, 기술통계의 p(y=1)은 0.6645로 비슷하지만 차이가 있습니다. 제가 이해하기로는 이 차이가 소수점 등으로 인한 단순한 계산오차가 아니고, 원래 불일치해야 맞는 것으로 알고 있습니다.
    제가 혹시 잘못 알고 있었던 것인지 걱정스럽습니다만, 궁금증을 이기지 못하고 여쭤봅니다.

  19. ric1080 2021.07.20 13:14  댓글주소  수정/삭제  댓글쓰기

    음.... 통계 알레르기가 있어서 대충 훑어봤는데요.
    종합해서 대충 후려치면
    - 실제 계층이 아니라 주관적 계층인식임을 감안하고
    - 통계 방법에 따라 기울기가 강조되는 효과가 있을 수 있지만
    - 우쨌든 계층인식 수준과 응답이 예가 나올 확률 사이의 상관관계가 음수인건 20대 남성이 유일하다.
    라고 해도 큰 문제는 없으려나요?

  20. 몰라요 2021.10.04 13:42  댓글주소  수정/삭제  댓글쓰기

    근데 긍정적 응답은 이대남과 이대녀가 10프로밖에 차이가 나지 않고, 이대남이 특별히 높은 계층인식에 몰려있지도 않은데 왜 꼬라박는 그래프가 나오는거죠