제 질문에 대한 통계청 김신호 과장님 답글

김신호 과장님의 원래 페이스북 포스팅


이 글을 김신호 과장님에게 답장으로 쓸까 하다가, 그렇게 하지 않기로 했음. 답글이라고 달았지만 제 질문에 대한 답도 아니라, 별 의미도 없을 것 같고.  


사실 페친의 링크 덕분에 김신호 과장님의 글은 지난 주말에 읽어보았음. 패널 콘디셔닝 글을 안 읽어본건가? 설마 가계동향조사의 <횡단면 + 종단면> 성격에 대한 장문의 글도 올렸는데, 왜 이런 말씀을 하시지? 제발 좀 남의 글을 읽고 쓰시라고 여러번 말씀드렸는데, 설마 페이스북에 올린 이 글을 제 글에 대한 답으로 달지는 않겠지라고 생각하면서도... 뭔가 찜찜한 구석이 있었음. 페이스북의 그 글에 저에 대한 답글인 듯한, 그런 뒷목 땡기는 답답함.  





조직에서 터줏대감들이 임기제 굴러온 돌을 무력화 시키고 조직의 관행을 지킬 때 쓰는 흔한 방법이 있음. 하나는 의전으로 행사 뺑뺑이 돌리는 것. 이렇게 하면 업무 파악 못하고, 업무 지시도 못하고, 밖에서 의전만 받다가 임기 끝남. 다른 하나는 동문서답으로 굴러온 돌의 얘기가 쇠귀에 경읽기가 되게 만드는 것. 아무리 논리적으로 말해도 웃는 낯으로 예의를 갖춰서 딴소리하면 얘기하는 사람이 지쳐 나가떨어짐. 


상대방의 질문에 대답 안하고 자기가 하고 싶은 말 반복하는 것은, 미국 대통령 선거토론회 등 정치인 토론을 보면 늘상 쓰는 방법임. 토론이 목적이 아니라 언론플레이가 목적이면 흔히 쓰는 방법. 정치인들이 바보임? 질문에 대답도 못하게. 다 깊은 뜻이 있는 거임. 마찬가지로 중앙부처 과장이면 실무 관리의 정점인데, 이 분들이 바보임? 자기 영역에 대한 질문을 이해 못하게. 다 자기 조직에 맞는 생리가 있는거임.  






우야튼 김신호 과장의 글은 제 질문에 대한 답은 아니지만, 몇 가지 점에서 생각할 거리가 있음 (참고로 원래 제 질문은 요기에 쓴 제 글의 마지막에 있음). 


김신호 과장의 글은 소제목을 다는 등 논리적으로 글이 작성되어 내용이 쉽게 전달됨. 잘 쓰셨음. 포인트는 세가지임. 


첫번째는 가계동향조사의 분기 조사가 가지는 문제점.

두번째는 연속 표본 문제는 아니라는 것. 

세번째는 통계청 조직 확대가 필요하다는 것. 




우선 첫번째 포인트를 지적하며 쓴 분기 조사의 문제점은 다 동의함. 그런데 그게 이 번 2017-2018년 비교에 여러가지 튀는 통계가 나오는 이유임?


중학교 때 배우는 algebra에 이런게 있음. 

 (X1 + e) - (X2 + e) = (X1 - X2) 


여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. 


즉, 가계동향조사를 분기별로 하는 것은 문제지만, 지금까지 계속해서 그렇게 해왔기 때문에 올해 특별히 분기별 조사 때문에 시계열 비교를 못하는 것은 아니라는 것. 분기별 조사의 에러를 또 다른 분기별 조사의 에러로 상쇄해서 시계열 비교가 가능한 구조. 


따라서 첫번째 포인트는 다른 측면에서 필요한 논의긴 하지만, 시계열 비교의 적절성을 논의하는데 필요없는 물타기임. 





두번째로 연속 표본 문제가 아니라고 엉뚱한 말씀을 하는데, 아래 장문의 글에서 했던 말을 반복함.  


... 정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. ...






세번째가 사실 김신호 과장님 글의 백미. 가계동향조사를 다루는 공무원이 5급 서기관 1명, 주무관2명으로 3명인데, 이들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"하고, 조사내용도 "가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해"하다는 것. 따라서 조직확충이 필요하고, 이렇게 확충된 조직이 다른 간섭을 받지 않고 독립적으로 일할 수 있게 해줘야 한다는 것. 


가계동향조사 예산이 올해 28억이고, 내년에는 확대 개편을 위해 160억을 편성했다고 함. 국민 예산으로 28억짜리 조사를 했는데, 이 조사를 분석해서 공표하는 사람은 달랑 3명임. 정말 일당백의 용사들임. 공무원의 헌신이 느껴지심? 아무리 일당백의 용사라도, 이렇게 사람이 모자라면 모든 것을 카버할 수 없음. 중과부적. 


그런데 이거 좀 이상하지 않음?


이렇게 분석 인력이 보자랄 경우 28억짜리 조사를 활용하는 최선의 방법은 조사 원자료를 공개하고 여러 학자로 하여금 알아서 분석하게 함으로써 새로운 발견 사항은 없는지, 조사에 다른 문제는 없는지 알아내도록 하는 것. 사람이 적을수록 외부에 공개해서 분석을 풍부하게 해야 함. 


그런데 달랑 3명이 분석해 놓고, 통계청은 조사의 오남용을 우려해서 원자료 중 일부만 일반 공개함. 달랑 3명이서 전체 학계에서 어떤 변수는 오용하고 어떤 변수는 남용할지 판단해서 통제함. 


세상에 조사원자료를 공개하지 않으면서 프라이버시 보호도 아니고 학계의 오남용을 염려하는 논리는 또 처음 들어봄. 눈가리고 아웅이었지만 그래도 지금까지 그렇게는 얘기하지 않았음.


MDIS 이용자 센터에 가면 일반 공개하지 않는 데이타도 볼 수 있다는데, 여기가 걍 아무나 가서 앉아서 분석하는 곳이 아님. 신청하고, 허가받고, 보안검색 받아서 하는 곳임. 지금은 어떤지 모르겠지만 예전에는 설치된 통계 프로그램도 매우 제한적이었음.  


프라이버시 보호를 위해서 이런 장치가 필요하다는 것은 백퍼 동의함. 그런데 가중치 부여 등 오남용을 막기 위해서 MDIS 이용자 센터를 거치라고? 누가 들으면 MDIS 이용자 센터에서 어떤 분석을 어떻게 해야 하는지 친절하게 안내해주는줄 알겠음. 


세번째 포인트는 전형적인 조직보호의 논리임. 




그래서 모두가 알아야 할 오늘의 교훈: 

약은 약사에게, 처방은 의사에게, 데이타 오남용 판단은 통계청 공무원에게. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. ?? 2018.09.11 04:13  댓글주소  수정/삭제  댓글쓰기

    근데 mdis 데이터 센터 방문하면 누가 연속표본인지 알 수 있나요?

    • 바이커 2018.09.11 08:06  댓글주소  수정/삭제

      필요한 변수를 신청을 해서 사용 허가를 받으면 가능합니다. 그런데 프로포잘을 보고 실제 그 변수가 필요한지 판단해서 허가 해주는 권한을 가진 분들이 바로 가계동향조사를 다루는 공무원입니다.

  2. Q 2018.09.11 05:20  댓글주소  수정/삭제  댓글쓰기

    교수님 또 틀렸어요.
    "여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. "

    당연히 아시겠지만, 에러는 확율 변수잖아요. 그래서 2017년 때 에러하고 2018년 때 에러의 크기가 같을 수 없어요~ 당연히 상쇄가 안되요.

    • 세상에 2018.09.11 05:50  댓글주소  수정/삭제

      선생님, 당연히 아시겠지만 random sampling을 했다는 가정이 있기 때문에 해결 가능한 문제입니다. 이 정도면 sovidence님이 하고자 하는 핵심을 애써 무시하시는 것인지, 아니면 모르시는 건지 정말 이해가 안 되네요. 위 가정이 틀리면 그 "전문가"님들은 도대체 시계열 분석은 도대체 어떻게 하시고들 계십니까

    • QQ 2018.09.11 06:19  댓글주소  수정/삭제

      Q/
      님도 또 틀렸네요. 안되요->안돼요 라고 써야 맞죠.

      e는 확률변수이고 랜덤 샘플링이 제대로 되었다면 당연히 상쇄되어요~상쇄가 안되었다는 것은 샘플링에 문제가 있다는 뜻이에요~유식한 척 하고 싶은 마음은 알겠는데 본인이 무슨 말 하는지는 이해하고 말하시길~

    • 바이커 2018.09.11 08:08  댓글주소  수정/삭제

      e는 샘플링 에러가 아니라 분기별 조사에 따르는 measurement error입니다. 측정 오차도 랜덤한 것으로 일반적으로 가정하는데, 시계열 비교에서는 설사 편향이 있어라도 조사 방법이 바뀌지 않는 한 편향의 방향이 일정하기 때문에 white noise로 가정할 수 있습니다.

    • 아Q 2018.09.11 10:06  댓글주소  수정/삭제

      저 Q가 아Q정전의 Q인 모양

  3. 아이린 2018.09.11 09:43  댓글주소  수정/삭제  댓글쓰기

    잘보고 갑니다 ~

  4. 3 2018.09.11 21:17  댓글주소  수정/삭제  댓글쓰기

    http://news.nate.com/view/20180912n04800

    이 적폐 통계도 비판해 주세요

  5. 3 2018.09.11 22:59  댓글주소  수정/삭제  댓글쓰기

    http://news.nate.com/view/20180912n17177?modit=1536721572

    여기 또 적폐 통계로 난리치고 있네요

  6. 이산 2018.09.11 23:53  댓글주소  수정/삭제  댓글쓰기

    8월 고용동향이 나왔으니 또 바빠지시겠네요ㅎㅎ

  7. 회사원 2018.09.12 01:02  댓글주소  수정/삭제  댓글쓰기

    중학교애들이 알제브라를 배우는지 방정식을 배우는지는 모르겠지만 전년도의 에러 e 가 당해년도의 에러 e 가 같은 상수라는게 말이 된다고 생각하세요? 그건 초딩들도 아는 상식일텐데요. 이미 오염된 데이터에 오염된 데이터로 가공을 해봤자 더 거대한 오염데이터 밖에 더 되겠습니까?

    • 바이커 2018.09.12 09:14  댓글주소  수정/삭제

      조사간격과 횟수에 따른 측정오차의 평균과 분포를 중학생이 알아듣게끔 설명해도, 초딩이나 그 정도 사고능력을 가진 분들에게는 아무래도 어렵겠죠.

    • 아놈 2018.09.12 11:38  댓글주소  수정/삭제

      회사원님이 실수로 매년 10만원에서 20만원 사이로 월급을 더 받았다면 (=에러 e), 전년도와의 차이를 비교하는 시계열 분석이 가능합니다.

  8. 2018.09.12 01:25  댓글주소  수정/삭제  댓글쓰기

    청와대나 주변 인사들과 이익공동체도 아니신데 (아닌가요?) 왜 이렇게 실패하고 있는 정책에 본인의 평판을 애써 연계시키시려는지 이해하기 어렵지만 사람은 살면서 자기가 옳다고 믿는 것을 위해 이름을 걸어야 할 때도 있는 법인가 싶네요.

    아 또 생각해보면 그렇게 비장할 것도 없는게, 망하고 경제가 박살나던가 정부가 정책수정하던가 하면 곧 미국 돌아가시니 모르쇠로 한동안 블로그 조용히 놀리면 되고 (트럼프 경제정책 비판하는 것도 아니고 북미 학계 동료 학자들은 이런 논쟁 어디 있는 줄도 모를테니 체면 깎일 것도 별로 없네요 ㅎ) 소득주도성장 잘 풀려서 경제 살아나면 괜히 기분 좋고 말이죠. 또 혹시 아나요, 어디서 한자리 나올지. 역시 사람은 똑똑하고 볼 일입니다.

    • 얘는 왜 2018.09.12 01:45  댓글주소  수정/삭제

      개똥같은 소리를 하고 있지... 글이 이야기하는 것이 두 가지잖아.

      1. 원래 하던 이야기 안하고 빙 돌리는 버릇 그거 진짜 ♫♩♩♫짓인데 하고있네?
      2. 딱 세명이서 그거 분석을 다 한다고? 도저히 안되겠다 싶으면 미국처럼 원자료를 까

      이건 정책 문제가 아니라 교묘하게 조직논리로 논점을 흐리려는 공무원 아재를 까고 있는데 넌 왜 그런 사람 입을 막으려고 듬?

    • 진짜 2018.09.12 03:08  댓글주소  수정/삭제

      이런 인간들이 가장 찌질한 거 같다.. 차라리 직접적인 문제를 들어 비판을 하던가 공격을 하던가 할 것이지 말을 이리 돌리고 저리 돌리며 당면 문제와 상관 없는 이야기 끌고 들어와 아님 말고식으로 조롱하듯 말하는 인간들..
      진짜 추해

    • 이산 2018.09.12 03:47  댓글주소  수정/삭제

      거대담론이니 선동이니 언급할 때부터 이런 공격 안 받을거라고 생각했으면 안일하셨던거죠ㅋㅋ

    • 잠수 2018.09.12 08:38  댓글주소  수정/삭제

      우리 사회의 큰 문제예요.

      어떤 말을 해도 "출세하고 싶니? 돈 벌고 싶구나?"라고 의도를 따지고 드는 자세들. 모든 행동은 출세 의지/돈벌의지로 비롯된다는 확신들.

      건전한 비판에 대해서 합리적인 반박이 불가할 때 쉽게 들이대는 반론.

      "내가 세상을 이렇게 잘 안다"는 왜곡된 생각.

      쓰레기.

    • 2018.09.12 10:23  댓글주소  수정/삭제

      한국이 통계자료 비밀주의가 심하다 뭐다 다 맞는 소리죠. 근데 맞는 소리를 타이밍을 이상하게 하면 당연히 그 맞는 소리만 하고 싶었던 게 아니라 뒤에 다른 목적성이 있는거고요. 제 경험상으로는 아마 높은 확률로 누구를 억지로라도 까고 싶거나 방어해주고 싶은 겁니다만. 없애려던 조사 살려서 공치사하려다 틀어지니 청장 모가지 날리는 거 보다, 원론적인 문제점이 훨씬 큰 폐단이라며 글 몇개씩 늘여가며 얘기하는거 흔히 말하는 물타기 아닌가요? 뭐 아니라고 본인은 생각하실지 모르겠지만. 2015년에는, 16년에는, 17년에는, 18년 초입에는 이 얘기 안하시다가 왜 하필 이렇게 하고 싶은 얘기가 구구절절하신지 저는 좀 알기 힘들구요. 갑자기 땡기셨나보죠. 한국 통계행정의 깊고 심원한 문제점이. 통계청장이야 뭐 죽이든 말든 인사권자가 알아서 할 일이고요^^

      북한이 비민주적이고 인권침해가 있는 걸 누가 모릅니까. 핵개발 미사일 뭐 한두해 가지고 있나요. 그런데 선거철에 이 맞는 소리 굳이 들고나와서 나팔부는 걸 보통 뭐라고 부르죠?

      댓글 아주 재미있군요. 여러분 다들 알면서 귀머거리 소경 노릇들 하는 거야 잘 압니다만 좀 최소한의 염치라는 게 있지 않나요ㅋ?

    • ㅋㅋ 2018.09.12 11:31  댓글주소  수정/삭제

      ㄹㅇ무슨 국정농단이 문제가 아니라 제왕적대통령제가 문제라고 징징대던 작년 조선일보 보는줄ㅋㅋㅋㅋ

    • 에휴. 2018.09.12 12:56  댓글주소  수정/삭제

      음님/

      ". 2015년에는, 16년에는, 17년에는, 18년 초입에는 이 얘기 안하시다가

      출처: http://sovidence.tistory.com/973#comment11991872 [SOVIDENCE]"

      댓글 보니까 2018.09.12 10:23 에 쓰셨네요... 그러면 2018.09.12 03:04에 올라온 바이커님 포스팅 좀 보고 댓글을 쓰세요.

      바이커님은 2015년에도 관련 발표 하셨고 2017년에도 2017.04.07 11:24 관련 포스팅을 하셨습니다.

  9. 2018.09.12 10:26  댓글주소  수정/삭제  댓글쓰기

    그리고 사실 뭣보다 저도 이분이 무슨 자리욕심에 신문기고도 아니고 한낮 블로그 글을 쓰고 계신다고는 생각 안하고, 그냥 보다보니 안될 일에 왜 오기를 부리시는지 모르겠어 신기함 반 안타까움 반에 쓴 얘깁니다. 하다못해 경제부총리도 문제있다는 걸 왜 본인 이름 걸고서 이런 고집을...

    • 아놈 2018.09.12 11:29  댓글주소  수정/삭제

      실리콘 벨리의 테라노스 사기극을 보도한 기자의 책에 대한 요약을 얼마전에 읽었는데, 그 중 아래의 글이 "음"님과 또 비슷한 부류의 분들이 나오는 상황에 딱 맞는 이야기 같아요.
      ========
      7. You know you are right when someone attacks you personally.

      – 당신이 누군가에게 비판적인 질문을 했을 때 상대방이 당신을 ‘개인적으로, 감정적으로’ 공격한다면, 당신 생각이 맞기 때문일 것이다. 존 캐리루 기자도 테라노스의 변호사가 자신이 쓴 기사를 WSJ에 싣지 못하게끔 집요하게 달려드는 것을 보고서 제대로 특종 물었다는 것을 직감하게 되었다고 한다.

      http://techneedle.com/archives/35681?utm_source=dlvr.it&utm_medium=twitter
      ===========

      수준이햐의 댓글들이 배설되는 것은 바이커님의 생각이 맞기 때문일 것입니다.

    • 바이커 2018.09.12 12:53  댓글주소  수정/삭제

      이건 가계동향조사의 신뢰 문제로 시작한 거에요. 가계동향조사는 고용조사가 아닙니다. 섞지 말아요.

      가계동향조사의 시계열 비교 문제에 대한 전문적 얘기 다 했어요. 여기에 대해 뭘 좀 아는 소위 전문가라는 사람들의 해결책이 뭐겠어요? "정부의 의도"에 대한 분석? 열심히 정치적 해석하기?

      아니면 여러가지 정황증거로 최대한의 추론을 하고, 그래도 막히는 마지막 부분에 대한 검증은 오로지 원자료가 있어야만 할 수 있다고 말하는 것.

      님이 옹호하는게 지금 뭐 같아요?

      논의는 여러 차원이 있는 겁니다. 전문적 얘기는 한마디도 못(안)하다가, 모든 논의를 정치적 의도로 환원할려는 시도. 속은 편할지 몰라도 좋은 사고방식 아니에요.

      설사 정치적 의도가 의심되더라도 good will assumption을 가지고 전문적 내용을 논의할 수 있는 사람이 있고, 그렇지 않은 사람이 있는거죠. 어쩌겠어요, 모든 사람이 그럴 수 있는건 아니니.

  10. 김신호 2018.09.19 00:02  댓글주소  수정/삭제  댓글쓰기

    먼저, 연속표본 식별변수 포함 원자료는 MDIS의 "이용자센터 서비스"를 통하여 이용가능할 것입니다.
    이우진 교수님의 연속표본자료 대상 통계추정은 아래 기사에 따르면 그에 걸맞는 가중치를 산출, 이용한 것이 아닌 것 같습니다.

    http://egloos.zum.com/iandyou/v/3086370

    통계청은 이러한 오용을 우려하여 일부 변수에 대하여는 "이용자센터 서비스"를 통해서만 이용할 수 있도록 하고 있습니다. 만약 이런 공식적인 경로를 이용하여 그런 분석을 하였다면 외부 반출이 거부되었을 것입니다. 명백한 오류이기 때문입니다. 전문가이신 교수님이 이런 추정을 하여 통계청 공표통계에 문제가 있다고 지적할 정도인데 알아서 잘 이용하겠거니 하며 그냥 모두 오픈할 수 있겠습니까? 다시 한 번 강조하자면 통계청에서는 원자료를 충실히 제공하고 있습니다. 특히, 교수님 이전 포스팅에서 처럼 원자료에 문제가 있어서 공개하지 않는 것 같다는 말씀은 더 이상 하지 말아 주시기 바랍니다.

    가계동향조사 샘플링에 대하여는 아래 페이지를 참고하시기 바랍니다.

    https://meta.narastat.kr/metasvc/index.do?orgId=101&confmNo=101006&kosisYn=Y

    다만, 아시는 바와 같이 최근 변동이 잦아 아직 상세 보고서를 작성하고 있지 못하고 있는 것 같습니다.
    정착이 되면 아래 페이지 이용자용 통계정보보고서 pdf파일과 같은 상세보고서를 작성하여 공개할 것입니다.

    https://meta.narastat.kr/metasvc/index.do?orgId=101&confmNo=101006&kosisYn=Y

    1) 표본탈락은 체계적(월평균 1/36 가구 교체), 이사, 응답하다 불응 등의 경우에 발생할 수 있을 것입니다. 우리나라는 소득모집단이 없어서 위 설명자료에서와 같이 보조변수 자료를 이용하여 샘플링도 하고 가중치조정도 합니다.
    2) 표본전담부서가 따로 있습니다. 다양한 분석을 하는 것으로 알고 있습니만, 말씀하신 분석은 용이하지 않을 것 같습니다. 제가 현재 그 업무담당자가 아니라 원하시는 답변을 못 드려 죄송합니다.
    3) 가중치를 제대로 산정하고 각각의 층에 해당되는 조사결과가 적정규모 이상 있다면 가능할 수 있겠죠. 다만, 표본규모 감소에 따른 표본오차가 커지는 문제도 있을 것이고요.

    저는 최근 통계청 가계동향조사 결과에 문제가 없다고 주장하는 것이 아닙니다. 각년도의 표본이 모집단을 대표하도록 추출되었어도 폐지하려다가 부활시키고 과정에서 비표본오차 등이 커졌을 것이라고 누구라도 예상할 수 있을 것입니다.
    그런데 통계청에서 소득분배분석에 부적합하다고 판단하여 폐지하려던 조사가 외부요구로 부활되다 보니 이러한 문제들을 보도자료에서 상세히 설명도 못한 것이라고 저는 추측합니다.
    저는 분기별 소득분배분석을 위한 소득조사는 실익도 없고 혼란야기 가능성이 크고 비효율적이라고 생각합니다. 저는 이 문제가 표본문제보다 더한 핵심문제라고 생각합는데, 혹시 이에 대하여 어떻게 생각하시는지요?

    • 바이커 2018.09.20 08:21  댓글주소  수정/삭제

      김신호 과장님,

      제가 하지도 않은 소리를 더 이상 하지 말라는 등, 왜 이렇게 남의 글을 안읽고 엉뚱한 소리를 하시는지 모르겠습니다. MDIS에 대해 http://sovidence.tistory.com/975 에서도 또 언급했으니, 한 번 읽어보십시오.

      MDIS가 아닌 일반 공개되는 자료 중에도 가중치를 주지 않으면 결과가 이상하게 되는 경우가 있습니다 (예를 들어 http://sovidence.tistory.com/951). 그런데도 일반공개하죠. 가중치 때문에 MDIS에서만 접근가능하고, 통계청의 심의를 거쳐야 한다는 얘기는 일관성이 없습니다.

      가중치라는 통계의 생기초에 해당하는 내용으로 학술적 연구를 통제한다는 발상이 어떻게 나오는지도 황당하구요.

      그나마 이 전과 달리 가중치만 주면 비교에 문제가 없다고 말하지 않고, "비표집오차" 등으로 인하여 가계동향조사의 시계열 비교에 문제가 있다고 인정하시니 다행입니다. 그렇게 "누구나" 알 수 있는걸 왜 그렇게 다른 분들은 박박 우겼는지 의문이긴 합니다.

      어느 댓글에서 제가 한 얘기인데, 원자료가 없으면 질문만 할 수 있지, 답은 못합니다. 가계동향조사의 시계열 비교의 어려움이 정확히 어디에 있는지는 따로 분석해서 판단해야 합니다. 표집오차인지, 비표집오차인지, 샘플링 바이어스인지, 비표집오차가 랜덤인지 편향이 있는지, 지금은 아무도 모릅니다. 비표집오차 때문이라는 결론을 뒷받침해주는 분석 결과는 현재 아무 것도 알려진 것이 없습니다. 여러가지 추측만 가능할 뿐이죠. 성급한 결론은 금물입니다. 과장님이 원자료를 분석해 보셔서, 아니면 통계청의 다른 분이 분석한 결과를 알고서 내리는 결론인가요?

      이우진 교수 분석이 가중치를 주지 않았다는건 직접 통계청에서 재분석한 결론입니까? 링크해준 기사를 통해 도대체 어떻게 그런 추론이 가능하죠? 가중치를 줘서 분석해 보면 이우진 교수의 결과와 달리 전체표본을 이용한 분석과 동일한 결과가 나오나요?

      제 글을 올리고 9일만에 답글을 남기셨는데, 이 번에는 질문에 답을 주셨으면 좋겠습니다.

  11. 김신호 2018.09.19 00:11  댓글주소  수정/삭제  댓글쓰기

    분기별 소득통계 전년동기비 비교문제는 e문제가 아니고요 계절조정 관련 아래 제 페이스북 포스팅 내용과 같은 체계적 문제입니다.

    https://www.facebook.com/100001155405571/posts/1848924995155996/

    통계청에서 외부요구 불문 기존 계획대로 분기소득조사 폐지를 강행했으면 작금의 논란이 없었을 텐테, 생각할수록 아쉽습니다.

    • 바이커 2018.09.20 08:27  댓글주소  수정/삭제

      e를 무엇으로 이해하시는 겁니까? e는 체계적 문제가 아니라는 겁니까?

      저도 분기소득으로 불평등을 계산하는게 적절치 않다고 보지만, 이 문제는 다른 차원의 얘기입니다. 지금의 이슈는 2018년 가계동향조사를 2017년 결과와 시계열적으로 비교하는게 적절하냐 입니다. 왜 주제를 자꾸 바꿀려고 하는지 모르겠습니다.

  12. 김신호 2018.09.19 00:35  댓글주소  수정/삭제  댓글쓰기

    국가통계기관을 흠집내서 이득될 게 뭐가 있으신가요? 통계발전을 위하여 인력확충이 필요하다고 하니까 그에 대하여까지 역공을 하시는 분은 교수님이 처음이라서요.

    • 바이커 2018.09.20 08:32  댓글주소  수정/삭제

      인력확충 얘기는 통계발전을 위하여 자료의 공개가 필요하다는 논리에 대한 반박 글에서 과장님이 한 얘기입니다. 모자란 인력과 원자료 공개 미비의 논리적 모순점을 지적하니, 국가통계기관을 흠집낸다고 반발하시는거죠.

      국가통계기관은 논리적 모순을 지적하면 안되는 곳인가요?

      앞서 다른 분들도 데이타 공개를 주장하는 숨은 의도가 뭐냐고 묻던데, 비슷한 얘기를 과장님께 들으니 새로운 느낌이군요. 통계청을 옹호하는 발언을 하신 다른 분들은, 뭐 어떤 이득이 있는건가요?

    • 아놈 2018.09.20 15:19  댓글주소  수정/삭제

      바이커님은 통계청에 흠집을 낸 것이 아니라 "흠"을 발견하고 잡아낸 것이고요, 흠을 발견하면 고칠 수 있다는 "이득"이 있겠지요. 댐에 구멍이 있으면 무작정 인력증원보다는 우선 고쳐야 하지 않겠습니까?

  13. 김신호 2018.09.20 21:29  댓글주소  수정/삭제  댓글쓰기

    기사중 아래 내용 보고 말씀드린 겁니다.
    ===================
    [추가] 가계동향조사 2018년 자료의 특성
    홍민기 (한국노동연구원 선임연구위원), 2018.08.16

    □ 결론

    ㅇ 지금까지의 결과는 현재 자료의 가중치를 그대로 적용한 것이므로, 패널자료 분석이나 1분위의 추가가구 비율을 조정한 자료로 분석한 결과가 대표성을 가진다고 할 수 없음

    - 다양한 측면에서 자료의 특성을 분석하여 자료에 대한 해석이 여러가지일 수 있는 가능성을 검토한 것임.
    ===================================

    통계청 옹호가 아니라
    인력확충하여 발전시키자는 것이죠.
    현재 통계청은 문제가 있다는 교수님 말씀과 상통하는 주장이기도 하죠.

    고대 이교수님처럼 모집단 대표성확보를 위한 추가적인 가중치산출없이 연속가구만 가지고 추정하면 문제가 있다는 것입니다. 이런 오류 이용을 예방하기 위하여 연속가구 식별변수 포함 마이크로데이터는 "이용자센터 서비스"를 통하여 제공하는 것이고요.
    교수님 같이 통계전문성도 갖춰서 그런 가중치 계산도 별도로 할 수 있는 경제/사회학자가 얼마나 있겠습니까? 이교수님과 같은 통계검증 목적이 아닌 빈곤탈출율 등 패널분석을 위해서는 그에 적합한 가중치를 산출해야 될 것인데요.

    비표본오차 얘기는 제 첫 페이스북 포스팅에서도 언급했습니다.

    • N 2018.09.20 22:15  댓글주소  수정/삭제

      “교수님 같이 통계전문성도 갖춰서 그런 가중치 계산도 별도로 할 수 있는 경제/사회학자가 얼마나 있겠습니까?”

      지금 한국 경제학계/ 사회학계 / 해외 소재 한인 경제학자/ 사회학자들이 통으로 무시당한 것 맞죠?

      출처: http://sovidence.tistory.com/973#comment11997573 [SOVIDENCE]

    • 행인 2018.09.21 00:11  댓글주소  수정/삭제

      고대 이우진 교수의 포인트는 그래서 연속표본의 소득이 늘었다는 것이 아니고 연속표본과 탈락표본 간 차이가 크기 때문에 매년도 시계열 비교가 무의미하다는 것 아닌지요. 가중치 얘기하면서 비판하는 건 하지 않은 주장에 대한 반론 아닌가 싶네요.

  14. 김신호 2018.09.21 00:16  댓글주소  수정/삭제  댓글쓰기

    많이 계신가 보네요.
    그러면 사과 드리고 제 주장 철회하겠습니다.

    이제부터 저는 여기 안 오겠습니다.
    현재 담당자도 아닐뿐만 아니라, 표본전문가도 아니어서 횡단통계자료 중 연속조사자료를 이용하기 위한 패널가중치 산출방법도 몰라서
    통계가 아닌 경제/사회전문가 중에 저 같이 모르는 분이 많을 거라고 생각할 정도니 더 이상 드릴 말씀이 없어서요.

    마지막으로 어쨌든 통계청에 관심을 가져 주셔서 감사드립니다. 앞으로도 많은 지도편달 부탁드립니다.

    감사합니다.

    • N 2018.09.21 01:34  댓글주소  수정/삭제

      가더라도 바이커님 질문에 답변은 하고 가시죠.

      "이우진 교수 분석이 가중치를 주지 않았다는건 직접 통계청에서 재분석한 결론입니까? 링크해준 기사를 통해 도대체 어떻게 그런 추론이 가능하죠? 가중치를 줘서 분석해 보면 이우진 교수의 결과와 달리 전체표본을 이용한 분석과 동일한 결과가 나오나요?

      출처: http://sovidence.tistory.com/973#comment11997615 [SOVIDENCE]"

    • 김신호 2018.09.21 02:13  댓글주소  수정/삭제

      위에서도 언급했습니다만,

      기사중 아래 내용 보고 말씀드린 겁니다.(논란이 있으니까 해명을 추가한 것 같습니다.)
      ===================
      [추가] 가계동향조사 2018년 자료의 특성
      홍민기 (한국노동연구원 선임연구위원), 2018.08.16

      □ 결론

      ㅇ 지금까지의 결과는 현재 자료의 가중치를 그대로 적용한 것이므로, 패널자료 분석이나 1분위의 추가가구 비율을 조정한 자료로 분석한 결과가 대표성을 가진다고 할 수 없음

      - 다양한 측면에서 자료의 특성을 분석하여 자료에 대한 해석이 여러가지일 수 있는 가능성을 검토한 것임.
      ===================================

      출처: http://sovidence.tistory.com/973#comment11997643 [SOVIDENCE]

    • 김신호 2018.09.21 03:02  댓글주소  수정/삭제

      복지통계과 담당자에에 물어보니 위 기사대로 기존 현행 가중치를 이용하여 추정하셨네요. 잘 아시겠지만 연동체계에 의한 탈락인 경우 문제가 없을 수도 있겠지만, 이사(연간 15~20% 정도)나 응답하다 불응 등의 경우 이탈가구가 경향성이 있어서 편향문제가 있기 때문에 이교수님 추정은 잘못된 것입니다. 아울러 표본 축소에 따른 표본오차 확대문제도 있고요. 그런 추정치와 다르다고 통계청 발표자료를 문제삼으면 안 돼죠.

    • 바이커 2018.09.21 08:23  댓글주소  수정/삭제

      확인해 주셔서 감사합니다.

      이우진 교수는 통계청에서 제공한 가중치를 적용했네요.

      솔직히 조금 이상했습니다. 통계청 분들이 이우진 교수의 결과에 대해 가중치 얘기를 많이 하길래 이 교수가 가중치를 적용하지 않았나라고 생각했거든요. 동시에 그렇다면 통계청에서 바로 반박이 나와야 하는데, 그것도 없고요. 가중치 적용에 관계없이 결과가 같은가? 아니면 신임 통계청장이 발표를 못하게 압력을 넣나라는 의심도 했습니다.

      결국 통계청 가중치를 적용할 때 이우진 교수의 결과가 재현된다는 건데, 이렇게되면 이우진 교수의 결론을 반박하기 어렵습니다.

      이 교수는 연속샘플의 2017-2018 비교 뿐만 아니라, 2016-2017 비교도 제공합니다. 그리고 전체샘플을 이용한 2017-2018 소득 비교가 불가능하다고 결론내리죠.

      과장님은 동의하지 않으시는데, 연속샘플을 이용한 전체샘플의 시계열 비교 타당성 검증이라는 측면에서 이우진 교수의 분석에 아무런 문제가 없습니다.

      시계열 비교가 어렵게 된 원인이 무엇이냐를 따지는걸로 논의의 차원을 높이면 이우진 교수의 분석으로 불충분하지만요.