김신호 과장님, 


직접 댓글 (요기, 요기, 요기, 요기, 요기, 요기) 남겨주셔서 대단히 감사합니다. 통계청 주무부서를 거친 과장으로 답답해도 무시할 수 있는데 직접 댓글 남기고 소속을 밝힌 것은 큰 용기가 필요한 일이라고 생각됩니다. 


외람되지만 몇 가지 점에서 말씀드리고 싶은게 있고, 세 가지 질문도 드리고 싶습니다. 


우선, 이 블로그를 체크하시는 기자 분들이 간혹 있습니다. 통계청 과장 신분을 밝히고 댓글을 남기실 때는 혹시 책잡힐 것은 없는지 각별히 유념하시는 것이 좋습니다. 가계동향조사와 가금복을 과장시절에 직접 담당하셨다고 하니, 아래 남겨주시고 또 남겨주실 것으로 기대하는 글들이 통계청 공식 입장은 아니더라도, 통계청에 계신 핵심담당자들의 지배적 의견을 반영하고 있다고 대부분 믿을 것입니다. 


앞서도 두 번 말씀드렸지만 부디 글을 읽고서 답변하시기를 부탁드립니다. 아래 글에서 명확히 밝혔듯, 연속표본을 이용한 분석은 고려대 이우진 교수님이 한 것입니다. MDIS에서 제공하는 원자료에는 연속표본인지 신규표본인지에 대한 정보가 없기 때문에 저는 이 분석이 불가능합니다. 그렇기에 저에게 연속 표본을 이용한 분석에 가중치를 제대로 주었냐는 질문은 적절치 않습니다. 


과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다. 참고로 저는 사회과학자들을 대상으로 가중치를 어떻게 주어야하는지에 대한 특강을 한 적도 있습니다. 


저에게 표집에 대한 전체 정보가 있는 원자료를 주시면 retention에 대한 가중치를 보정한 후의 연속 샘플 결과를 분석할 수 있고, 2017년과 2018년의 모집단 추정 변화에 따른 효과를 통제한 후 2018년에도 2017년과 모집단 분포에 변화가 없다고 가정할 때의 counterfactual한 변화를 분석할 수 있습니다. 현재 논란이 되고 있는, 2015년 센서스에 기반한 가구변화, 연속샘플과 신규샘플의 특정 변화를 모두 통제한 후에 결과에 일관성이 있는지 분석해 볼 수 있습니다. 


고려대 이우진 교수가 가중치를 제대로 부여하여 분석했는지 그러지 못했는지, 가중치를 바꾸면 결과가 달라지는지를 저 같은 사람에게 원자료를 주시면 검증해 볼 수 있습니다. 더욱이 한국에서는 보수적인 정치적 입장을 가진 학자가 진보적인 분 보다 훨씬 많습니다. 이우진 교수의 분석이 잘못된 것이면, 보수적인 학자들이 알아서 반박할 것입니다. 그런데 지금은 자료가 없으니 누구도 이우진 교수에 대해서 반박하지 못하는 것 아닙니까.


그러니 학자들에게 원자료를 제공하면 retention rate에 따른 가중치 변화를 제대로 보지 못할 것이라는 염려는 하지 않으셔도 좋습니다. 모 기자처럼 원자료를 줘도 뭘 제대로 모르고 엉뚱한 소리를 하는 사람도 물론 있겠지만, 이 때문에 연속표본인지 대체표본인지를 알 수 있는 식별자 자체를 제공하지 않는 통계청의 결정은 잘못된 것입니다. 좋게 표현해 구더기 무서워 장 못담그는 노파심이고, 심하게 말해 국민 세금으로 만든 공유자산을 사유재산처럼 독점하는 것입니다. 이런 행태는 프라이버시 보호도 아닙니다. 논란거리를 차단하겠다는 조직 이기주의일 뿐이죠. 


학자들도 공무원을 무시하는 경향이 많으니 과장님 개인으로써는 매우 불쾌할 수도 있고, 피차일반이라고 할 수도 있으나, 과장님과 통계청의 결정은 공적인 것입니다. 제대로 분석하지 못하고 엉뚱한 소리하는 학자나 기사에 대한 대응은 그것대로 필요한 것이지, 원자료를 제공하지 않으면서 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는"다고 말하는 것은 이해하기 어려운 결정입니다. 이런 마인드를 가지고 있으니 정책 기관과 청와대에서 원자료 전체를 달라는 걸, 마치 통계청의 권한을 침해한 것으로 느끼는 것 아닙니까. 





여기서 질문 드리겠습니다. 기우에서 미리 말씀드리면 일반론을 반복하지 마시고 질문에 답변해주실 것을 부탁드립니다. 과장님이 링크해 주신 글들은 통계학 처음 공부하는 학부생이나 석사 과정생들이 읽으면 도움이 될만한 정도의 일반론입니다. 그 수준의 얘기가 아닙니다. 논의를 이해하지 못해서 일반론을 반복하는 것인지, 알지만 물타기 할려고 하는 건지 모르겠지만, 둘 다 좋은 신호는 아닙니다. 본 글에서 연속표본과 전체표본에 차이가날 여러 가능성에 대해서 언급해 두었습니다. 원자료를 제공하지 않는 이상, 통계청에서 소상히 연속표본과 전체표본에 차이가 나는 이유를 밝혀야 합니다. 


그럼 진짜로 질문 드립니다. 


첫번째로 통계청에서 탈락 표본이 생겨서 대체할 때 어떤 변수를 감안하여 대체하시나요? 대체 표본의 attrition 효과를 고려하여 가중치를 구하시나요? 그렇다면 가중치를 구할 때 통제하는 변수는 무엇입니까? 대체 표본을 산정할 때 탈락 표본의 소득도 명시적 고려 사항입니까? 


두번째로 소득에 따른 attrition rate의 차이가 얼마나 되나요? 만약 소득이 대체 표본의 명시적 고려사항이 아니라면, 소득에 따른 탈락률의 차이가 불평등 측정에 어떤 영향을 끼친다고 생각하고 계십니까? 추가 샘플이 이 번 처럼 많을 경우 이 효과가 어떤 영향을 끼친다고 가정하시는가요? 실제로 그런 분석을 해보셨습니까? 


마지막으로 과장님 말씀은 가중치를 제대로 주고 분석하면 통계청에서 원래 발표했던 내용이 연속표본에서도 재현되는 것처럼 들립니다. 그게 아니라면 반복해서 말씀하시는 가중치 얘기는 동문서답이 됩니다. 그런 결과가 나옵니까? 





학자들 사이에서도 제가 논쟁을 할 때 매우 직설적이고, 단도직입적으로 쟁점을 단순화해서 제기하는 것으로 악명이 높습니다. 저는 그래야 차이가 분명해지고 서로 합의하고 논쟁할 수 있는 것과, 입장의 차이를 확인하고 정리해야 하는 것들이 분명해 진다고 느껴서요. 이런 식의 어법이 대민상대가 많은 공무원들의 일반적인 언어구사법이 아니라 당혹스러우실 수도 있다고 생각됩니다. 널리 양해해주시기를 부탁드립니다. 


다시 한 번 용기를 내서 답글 써주신 것에 감사드립니다. 추가로 시간내셔서 제 질문에 구체적인 답변을 주시면 저 뿐만 아니라 다른 많은 분들에게, 나아가 현재의 국가적 논란을 정리하는데 크게 도움이 될 것입니다. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 별사탕 2018.09.05 13:28  댓글주소  수정/삭제  댓글쓰기

    본 토론에 참여해 주신 김신호 과장님께 깊이 감사드립니다. 이번 논쟁이 계속 생산적인 토론으로 이어지기를 기대합니다.

    비표본오차의 근원이 가중치 계산에 포함되지 않은 변수에 있거나, 포함될 수 없는 변수 (관찰되지 않는 이질성 unobserved heterogeneity) 에 있다면 가중치로도 비표본오차를 교정할 수 없다는 것은 과장님께서도 잘 알고 계시리라 생각합니다. 통계조사 방식을 한번 정하면 되도록 바꾸지 않는 것도 관찰되지 않는 이질성의 분포가 시간이 지나며 튀지 않기를 바라기 때문이지 않나요. 사람들이 이우진 교수님의 패널 분석 결과를 주목하는 것은, 최근 가계동향조사의 조사방식이 변한 상황에서 관찰되지 않는 이질성을 통제함으로써 기술통계의 큰 변화가 모집단의 변화와 조사방식의 변화 중 무엇을 반영하는지 이해하려는 시도이기 때문이라고 받아들이고 있습니다. 어제의 나는 오늘의 나일 테니 시간에 따라 변하지 않는 이질성은 패널 분석으로 통제가 가능하겠죠.

    이 기회에 가중치 계산과 무응답, 표본 탈락에 따른 교정을 통계청에서 어떻게 이해하고 있는지 상세히 밝혀주시면 정말 큰 도움이 되겠습니다. 그리고 과장님께서도 아시겠지만, 좋은 자료의 가치란 정말 무궁무진합니다. 가구 ID를 "이러한 잘못된 분석을 할 것을 우려하여 제공하지 않는 것"이라면, 미국을 비롯한 대부분의 국가는 '잘못된 분석'을 해도 상관없어서 자료를 공개하나요. 통계청은 최대한 자료를 제공하고, 논문에 "연구 결과는 통계청의 입장과는 관련 없다"는 것을 명시하게 하고, 그 다음에는 연구자들이 알아서 치고받고 싸우게 지켜보면 될 일입니다. 특히 가계동향조사는 국세청 자료 등과는 달리 행정자료 (administrative data)가 아니라서 공개에 따른 부담도 크지 않다고 생각합니다. 통계청 자료의 적극적인 공개를 위해 힘써주시면 감사하겠습니다.

    • 아카 2018.09.06 10:46  댓글주소  수정/삭제

      지적하신 조사방법의 문제 때문에 통계청에서도 조사방법이 바뀐 2017년 가계동향조사를 전년도와 비교해 발표하는건 반대했다고 합니다. 이번에 문제가 되는 올해 통계와 작년 통계의 경우에는 똑같이 면접조사를 실시했다고 하더라구요.

    • 바이커 2018.09.06 10:51  댓글주소  수정/삭제

      아카/ unobserved heterogeneity를 염려하는 별사탕님의 조사방식 변화는 더 넓은 의미의 변화지 기장식이냐 면접법이냐의 얘기가 아닙니다.

    • 별사탕 2018.09.06 13:30  댓글주소  수정/삭제

      바이커님 말씀이 맞습니다. 기장식이든 면접식이든 조사에 참여하지만, 예컨대 기장식일 때 몇 가지 소비를 빼고 보고한다면 이는 측정오차 (measurement error) 의 문제이지 탈락 (attrition) 의 문제는 아닙니다. 다만 기장식은 귀찮아서 참여 안 할 가구가 면접식 조사에는 참여하고, 이러한 가구의 특질이 관심변수 (소득) 와 관련이 있다면 제가 설명드린 논리에 의해 탈락의 문제가 되기도 합니다. 제가 말씀드린 조사방식 변화는 기존 샘플과 신규 샘플의 구성비율 변화 등을 포괄하는 것입니다.

  2. ee 2018.09.05 22:26  댓글주소  수정/삭제  댓글쓰기

    이번에도 좋은 글 감사합니다. 교수님 포스팅을 그동안 읽고 공감하면서 궁금했던 점이 왜 증거에 기반한 연구들은 정책에 빨리 반영이 되지 않는 것일까요? 언론이 호도하거나, 관료의 입맛에 맞지 않거나, 정치인의 이익에 부합하지 않아서 일까요? 혹은 대중이 통계학을 어려워해서 일까요?

    • 바이커 2018.09.05 23:42  댓글주소  수정/삭제

      대부분의 증거가 결정적이지 않고, 증거가 나와도 그 증거에 기반해 정책을 바꾸는 것은 차원이 다른 사회적 과정이니까요. 하지만 정책 결정 과정에 증거를 챙기는 풍조는 확산될 것으로 저는 확신합니다.

  3. 김신호 2018.09.06 01:13  댓글주소  수정/삭제  댓글쓰기

    헐, 교수님이시네요. 가중치 중요성 포스팅도 하셨고요.
    솔직히 말씀드리자면, 올리신 글 기반 횡단종단 통계를 잘 모르는 분으로 판단하고 상식적 수준의 답변 올렸습니다. ㅠㅠ
    질문 고맙고요. 답변은 저녁 때 아는 범위 내에서 시도해보겠습니다.

    감사합니다.

  4. 2018.09.06 08:48  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

    • 바이커 sovidence 2018.09.06 10:01 신고  댓글주소  수정/삭제

      탈락되는 샘플과 신규로 들어오는 샘플의 유사성을 어떤 변수로 특정하는가에 대한 논의로 진화되었습니다.

      횡당면 샘플 내 종단면 디자인을 넣는 의미를 얘기하고 있는데, 횡단면 샘플과 종단면 샘플의 차이만 얘기하면 어쩌라는 건지 모르겠습니다.

      왜들 이렇게 자기만 알고 남들은 모른다고 생각하고 글을 쓰는지.

    • 바이커 2018.09.06 10:18  댓글주소  수정/삭제

      그리고 원자료 없이 전문가들끼리 논쟁해봐야 별 의미도 없습니다. 원자료 손에 쥐고 있는게 권력입니다. 저의 일관된 주장은 그래서 원자료를 공개하라는 것입니다.

      전문가의 상식 수준에서 추론하고 질문하는거지, 어떤 결론을 내릴 수 없으니까요. 여기서 전문가가 할 수 있는 것은 질문입니다.

      링크하신 글 쓴 분은 좋게 해석하면 그 질문 자체를 할 수 없다거나 질문이 잘못되었다는 주장인데, 그렇지 않습니다. 가계동향조사의 횡단면적 특성을 부인하는 것이 아닙니다. 가게동향조사는 횡단면 조사에 종단면 성격이 포함되어 있고, 이 특성을 어떻게 활용할 것인가를 놓고 지금 질문하는 것이니까요.

  5. 아카 2018.09.06 10:41  댓글주소  수정/삭제  댓글쓰기

    횡단면 통계를 시계열 비교할 때에는 각 시점의 표본이 모집단을 제대로 대표하고 있는지가 문제이기 때문에, 대체표본과 탈락표본의 유사성은 중요해도 유지표본과 대체표본의 유사성은 별로 중요한 문제가 아니라는 지적이 있던데, 이 지적에 대해서는 어떻게 생각하시는지요?

    • 바이커 2018.09.06 10:46  댓글주소  수정/삭제

      그런 얘기는 패널자료의 attrition 대체만 놓고할 때 타당한 주장입니다. 가계동향조사는 3년마다 1/3씩 표본을 교체하기 때문에 교체 표본이 나머지 표본과 다른 편향을 가질 가능성을 최소화시키게끔 설계하는게 맞습니다.

      그렇게 설계하지 않았다면, yearly fluctuation을 줄이고자 도입한 패널적 성격이 오히려 yearly fluctuation을 크게 만드는 패착이 됩니다.

      제가 김신호 과장님께 질문 드린게 바로 이 내용과 관련있습니다. 아시는 분들은 딱 보면 제가 뭘 질문하는지 함의를 파악하시겠죠.

    • 아카 2018.09.06 10:50  댓글주소  수정/삭제

      아, 위 댓글에서 이 문제를 언급하셨군요ㅜㅜ 최근에 쓰신 통계청장 교환 관련해서 논점 정리하신 포스팅에 대해, 유지표본과 대체표본의 유사성을 문제삼는 것은 적절치 않다는 지적이 있어서 드린 질문이었습니다.. 사실 저도 그렇게ㅡ이해를 했었는데, 지적하신 게 그런 문제가 아니었나보군요,,

    • 바이커 2018.09.06 10:52  댓글주소  수정/삭제

      유사성이 있어야 정상입니다. 없으면 다른 차원에서 상당히 심각한 문제가 있습니다.

    • 바이커 2018.09.06 10:56  댓글주소  수정/삭제

      가계동향조사 표본은 세가지가 있는데 (1) 연속 표본; (2) attrition 때문에 대체한 대체 표본; (3) attrition이 없어도 스케쥴에 따라 교체하는 신규 표본입니다.

      지금 제 글에 문제제기하는 분들은 이 세가지를 엄밀히 구분하지 않고 (2)와 (3)을 섞어서 얘기하는 겁니다.

      제 글도 (2)와 (3)을 엄밀히 구분하지 않아서 논지가 분명하지 않다고 비판할 수 있는데 (그렇게 한 이유는 있습니다만...), 그런 지적 없이 (2)와 (3) 중 자신의 마음에 드는 내용만 골라 얘기하면 좀 짜증스럽죠.

  6. 김중백 2018.09.06 11:11  댓글주소  수정/삭제  댓글쓰기

    꼼꼼히 읽는다고 읽었는데 ^^ 저는 조금 다른 부분이 더 궁금하더군요.

    근본적으로 (1)을 놔두며 (2)와 (3)을 더하게 되면 모수를 추정할 수 있는 엄밀한 의미의 확률표집이 이루어질 수 있는지가 다소 의문입니다.

    물론 전체 가구 수에 비해서 엄청나게 작은 수의 가구기는 하지만

    어떤 기준으로 (2)와 (3)이 더해지며 (특히 (3) 같은 경우는 이미 (1)과 (2)가 선택된 상황에서 새롭게 선택되는 가구기 때문에 미약하지만 selection effect 가 있을 가능성도 있지 않을까요)

    어떤 가구들이 어떤 기준에 근거해 교체 대상에 오르거나 어떠한 특징을 가진 가구들이 attrition 되기 때문에 (2)와 (3)이 더해지는지가 명확히 설명되지 않는다면 추정의 원칙이 적용되는데 한계가 있지 않을까 라는 생각이 드는데 바이커님은 어떻게 생각하세요?

    • 바이커 2018.09.06 11:23  댓글주소  수정/삭제

      Attrition이 없을 때의 원래 (1)과 시간이 지나 attrition이 생긴 후의 (1)+(2)는 같은 성격을 지녀야 합니다.

      그리고 (3)은 (1)과 같은 유사한 특성을 지녔지만 연도별 인구 특성 변화를 반영하게끔 투입하는거죠. 따라서 (3)과 원래 (1)도 크게 차이가 없어야 정상입니다.

      여기서 (2)와 (3)을 구분할 수 없을 수도 있는데. 그렇게 할지라도 (1)+(2)+(3)의 전체 표본의 시계열적 비교와, (1)의 패널 비교가 동일한 방향을 띄어야 정상입니다. 그래야 저소득층 가구의 소득이 줄었다고 주장할 수 있습니다.

      그렇지 않다면 (2)나 (3)이 (1)과는 다른 설계상의 잘못으로 인한 observed heterogeneity가 있거나, 원래 설계에는 의도하지 않았지만 측정하는 변수(지금의 경우 소득)에 영향을 끼치는 unobserved heterogeneity가 있다는 의미가 됩니다.

      물론 지금의 이 모든 논란이 이우진 교수의 가중치 실수일 수도 있습니다. 그 의미는 (1)에 selection 효과가 크기 때문에 원래 표본과 성격이 많이 달라지고 가중치를 가해서 원래 표본 성격으로 조정하지 않으면 편향이 생긴다는 거죠. 이 가능성을 배제할 수 없습니다.

      하지만 원자료가 공개되지 않은 상태에서 이에 대한 검증이 불가능하니, 통계청에 따져 물을 수 밖에 없게 되는거죠.

      어쨌든 교체대상과 attrition의 성격 파악과 관련해서 저도 통계청 김신호 과장님께 질문드렸으니 답변을 기다려보는게 좋겠습니다.

    • 김중백 2018.09.06 11:36  댓글주소  수정/삭제

      어쩌면 똑같은 질문일 수도 있는데 이렇게 샘플 대체시 문제가 생기는데 샘플을 대체하며 조사하는 가장 큰 이유 혹은 당위성이 무엇인지 아직도 명확하게 와닿지가 않습니다.

      샘플 대체 과정이 명확하지 않은 상태에서 (김과장님께서 밝혀주신다면 좀 더 명확해지겠죠 ^^) 자료까지 공개하지 않으면 계속해서 이런 식의 조금은 불필요(?)한 논의가 이어질거 같다는 느낌이 듭니다.

      다르게 표현하면 바이커님 말씀대로 (2)와 (3)이 (1)과 큰 차이가 없어야 한다는 부분은 이해가는데 만약 이게 차이가 좀 나타난다 하더라도 이게 그때 한번 튄 통계인지, (1)의 selection effect 가 있는건지, 심지어 (1)과 (2)가 선택되어진 상황에서 새로 뽑히는 (3)의 selection effect 가 있는건지 현실적으로 구분할 방법이 없지 않을까요? 그렇다면 그냥 매번 새로운 샘플을 뽑는게 이런 생산적인, 하지만 공연한 ^^ 논란을 줄일 수 있지 않으려나요.

      아 물론 바이커님 말씀대로 원자료가 공개되고 남은 샘플, 들어온 샘플을 구분할 수 있는 변수가 있다면 문제가 방법론적으로는 훨씬 쉽게 접근할 수 있어 보이긴 합니다 :)

    • 바이커 2018.09.06 12:03  댓글주소  수정/삭제

      지금의 모든 논의에서 드러난 것처럼 패널이 있으면 결과가 왜 튀는지 체크해볼 수 있습니다. 통계청에서 원자료를 공개하지 않아서 그 기회를 막을 뿐이죠.

      또 다른 장점은 패널이 포함되어 있으면 overtime comparison에서 표준오차가 줄어듭니다. 시계열적 비교의 정확성이 높아집니다.

    • 김중백 2018.09.06 12:10  댓글주소  수정/삭제

      감사합니다. 덕분에 많은 공부가 되었습니다. 역시 공부 말고 딴 길을 찾아야 겠다는 다짐을 다시 한번 하게 됩니다 :) 쓸데 없는 걱정이자 희망이지만 생각보다 일이 커져서 혹시 통계청에서 아주 높은(?)분이 바이커님께 연락이 오는건 아닐까요 ㅎㅎ

    • 바이커 2018.09.06 12:15  댓글주소  수정/삭제

      잘하시면서 엄살 피우시긴요, 교수님. 통계청 높은 분이 블로거에게 연락할 걱정은 전혀 안하고 있습니다~

  7. ㅇㅇ 2018.09.06 19:35  댓글주소  수정/삭제  댓글쓰기

    https://m.facebook.com/story.php?story_fbid=922522094612281&id=100005634965510&ref=content_filter

    혹시 여기 놀러오신 분들 중에 위에 달린 논의들이 이해가 안가신다면 이 포스팅을 보시면 될 거 같습니다 ㅋㅋ 이 글에 대한 재반박이죠

    • 바이커 2018.09.06 20:21  댓글주소  수정/삭제

      링크해 주셔서 고맙습니다.

      위에 보시면 비밀 댓글이 하나 있는데 여기 달린게 이 글 링크입니다. 거기에 대한 제 답글과 본글로 제가 새로 올린 panel conditioning이 이 글이 가정하고 있는 내용에 대한 비판입니다.

      좀 더 직접적으로 답하자면 이 분의 논리는 횡단면 조사인 가계동향조사에 2005년부터 표본 유지가 더 어려운 종단면적 샘플을 삽입한 이유를 설명못합니다.

      가계동향조사의 신뢰성에 의문이 제기되었을 때 횡단면 조사에 종단면적 샘플이 추가된 것을 이용하여 검증하는걸 말하는건데, 거기다대고 횡단면적 성격만 설명하면 어쩌라는 건지 모르겠습니다.

      미국에서 CPS 사용하시는 분들은 횡단+종단 샘플로 횡단면 데이타 만드는게 무엇인지 잘 압니다. 한국 데이타만 주로 쓰시는 분들이 오히려 이런 데이타가 생소할 수 있습니다. 한국에는 그런 데이타가 없었.....던건 아니고, 있는데 통계청에서 제공하지 않아서 쓸 기회가 없었으니까요.

      마지막으로 기장식과 면접법에 대한 이 분의 지적은 옳습니다.

  8. 2018.09.07 01:21  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

    • 바이커 sovidence 2018.09.07 08:46 신고  댓글주소  수정/삭제

      페북이 원래 친목성이 강하니까 그러려니 합니다.

      거기 글 쓰신 전문가 분들도 제가 위에 쓴 panel conditioning에 대한 포스팅을 보셨으면 아차 하실 겁니다.

      물론 제가 놓치고 있는 부분이 있을 수 있습니다. 하지만 페북에서 전문가분들이 말씀하시는 잘해야 대학원 수업 수준의 기초적인 내용이 아닙니다. 전문가들이 기초적인 내용을 언급하는건 그 언급에 권위를 싣는거지, 전문가끼리 얘기할 내용은 아닙니다.

      페북에서 한 통계학 교수님도 가계동향조사와 비슷한 설계를 가진 미국의 조사로 CPS 언급하셨던데, 제 포스팅에서도 이미 다 말한 내용입니다.

      제가 CPS 한 10년 붙잡고 있었습니다. 가계동향조사와 같이 횡단+종단으로 횡단 추정하는 표본설계의 장점 뿐만 아니라 단점에 대해서도 나름 이해하고 있습니다.

  9. Q 2018.09.07 10:45  댓글주소  수정/삭제  댓글쓰기

    "과장님 질문을 그럼 저에게 모든 변수가 있는 원자료를 주면 가중치를 어떻게 처리할 것인가에 대한 것으로 해석해서 답변드리면, logit이나 probit으로 표본지속 확률에 영향을 끼친다고 의심되는 변수를 포함하여 표본지속의 확률을 계산한 후 이의 역수로 기존 가중치에 추가하여 분석합니다. 두 데이타를 합칠 때 match rate에 차이가 날 경우나, 패널자료의 sample attrition에 차이가 있을 때 쓰는 일반적인 방식입니다. 아마 찾아보셨겠지만 제가 이 방식을 이용해서 match rate에 차이가 나는 표본을 분석한 논문도 여러 편 있습니다."

    표본 지속 확률 계산시 Omitted variable bias, specification error, 샘플 사이즈 이슈가 있을 것 같은데요? 또 아무리 잘 보정을 해도 최종 예측치에서 통계청 풀 샘플 이용한 방법보다 최종 추정치들의 Standard error가 커진다는 것은 아시죠? 학술적 논의를 위해서 저런 방법이 표준인 것은 인정합니다만, 저 방법을 실제 현실 분석에 쓰라고요? 저 이슈들은 해결이 안되는 이슈에요. 그런데 저 방법으로 정확한 분석을 할 수 있으시다고요?

    • 바이커 2018.09.07 11:07  댓글주소  수정/삭제

      http://sovidence.tistory.com/970

      "헌데 가중치를 어떻게 주는게 맞는지는 그것 자체로 또 결론내리기 쉽지 않은 논란거리임."

      다 아는 얘기 혼자 아는 척하지 마세요. 제 글에 딴지거는 분들이 하도 기초적인 가중치 문제로 뭐라 하니까 가중치 문제 이해한다고 친절하게 예를 들어준거에요.

      본인이 뭘 좀 안다고 생각하면 상대방이 쓴 글을 주의깊게 읽어보는 습관부터 길러요. 지식 자랑하고 싶어서 헛다리 짚지말고요.

    • Q 2018.09.08 07:35  댓글주소  수정/삭제

      헛다리라고 우기고 싶어하시는건 알겠는데, 헛다리가 아니죠. 지금 하시는 말씀이 데이터가 공개되면 가중치를 추정해서 통계청 분석을 검증할 수 있으니 데이터를 공개하라는 말인데, 가중치 추정 방법 자체가 논란의 여지가 있는데 그 방법 가지고 어떻게 통계청 분석을 검증한단 겁니까? 교수들이야 책임지지 않는 분석을 해도 학술적 가치가 있기 때문에 상관이 없는데, 현실에 직접 사용하는 분석을 할때는 그런 논란이 있는 방법을 사용하면 아마추어 정권 소리를 듣죠. 통계청이 괜히 극 보수적인 방법을 사용하나요?

      그리고 데이터 공개와 관련된 다른 나라 케이스를 늘어놓으셨던데, 1. 한국은 연구자들이 연구하라고 준 데이터를 논란이 있는 방법을 사용해서 정권 구미에 맞는 분석을 해줘서 통계청장을 날리고 자기가 거기에 간 나라 이고, 2. 거기에 대해 학자들이 공개적인 비판도 안하는 앗사리판 나라입니다. 이런 나라에서 통계청이 뭘 믿고 데이터를 공개 합니까? 미국도 통계가 맘에 안든가고 통계청장 경질하고, 학계에서 검증도 안끝난 설익은 분석들을 가지고 설치는 연구자가 그 자리로 가나요?통계청의 기본적인 업무 독립성이 보장이 안되는데 뭔 데이터 공개입니까?

      하여간 제가 뭐라고 하든지 무시를 하실테니까, 더이상 말을 안하겠습니다. 결국 소득주도성장이 빈부격차를 늘리고 있는거면 문재인이 결국 책임을 질테니까요.

    • 바이커 2018.09.08 08:57  댓글주소  수정/삭제

      학술적 논의와 현실이 완전히 분리되어 있다는 그 인식은 도대체 어디서 온겁니까?

      무시를 안하면 논의가 산으로 가니, 할 수밖에 없어요.

    • N 2018.09.08 09:55  댓글주소  수정/삭제

      한국이 연구자들이 정권 구미에 맞는 분석을 해줘서 통계청장을 날리고 자기가 거기에 간 나라라고 하셨는데, 그 구체적인 사례가 현재 황수경-강신욱 인사인가요? 동아일보 8월 26일 보도에 따르면 강신욱 위원은 8월 15일 “‘최근 소득불평등의 추이와 특징’ 보고서를 통해 문재인 정부 들어 소득불평등 심화를 이미 꼬집기도”한 사람이예요. 정권 구미에 맞는 분석을 ‘해줘서’라고 하는 건 거의 인신공격 수준이로군요. 통계가 맘에 안든다고 경질했는지 아니면 통계청 조직 콘트롤이 안되어서 경질했는지 아니면 통계청이 게으르다는 의미로 경질했는지는 어떻게 알구요?

      가중치 추정 방법에 논란의 여지가 있어도 그게 무용하단 소리는 아니겠죠. 강신욱 전 의원이 내놓은 보고서가 학계에서 검증도 안된 설익은 분석이라 하셨는데, 한편으로는 학계에서 검증하지 않으면 권위가 없는 것처럼 말하면서, 한 편으로는 학계에서 검증을 못하게끔 통계청에서 raw data를 내놓지 말아야 한다고 주장하는 건 모순이예요. 대중 공개, 학계 공개도 안하고 청와대에서 내놓으라고 해도 우물쭈물. 그럼 통계는 세금으로 만드는 통계청 직원들 장난감인가요. 통계청 안에 연구 디자인이나 econometric analysis에 정통한 사람들이 더 많을 것 같나요, 아니면 통계청 밖에 더 많을 것 같나요. 이 기회에 통계청 감사 들어가야 해요. 조직 확충하자 독립성 달라 그러는데, 사람 더 뽑고 예산 더 쓰고 권한을 더 부여해도 좋을 만큼 이제까지 예산을 효율적으로 썼는지. 특히 공무원들 해외 출장, 해외연수에 쓴 돈들 말입니다.

  10. 미르~* 2018.09.07 23:34  댓글주소  수정/삭제  댓글쓰기

    통계학에 대한 지식이 전무한 일개 개발자로서는 이런 논의들이 '흰것은 종이요 검은것은 글씨로다' 라는 옛말만 떠오르게 하는군요;;
    그저 통계청에서 잘못된 자료를 내놓고 원자료를 내놓지 않는 뻔뻔한 행태를 일명 팩폭하고 계시다는 것 정도만 알겠습니다.
    통계에 문외한인 사람이지만 진심으로 응원합니다!!!
    통계청이 원자료를 제공해서 모든 논란을 잠재울 수 있었으면 좋겠네요~ :)

    • 바이커 2018.09.08 08:51  댓글주소  수정/삭제

      모든 변수가 들어간 원자료를 공개해도 논란은 계속될 것입니다. 논의의 수준이 바뀌는거죠.

  11. 김신호 2018.09.10 02:25  댓글주소  수정/삭제  댓글쓰기

    교수님 답변이 늦어 죄송합니다. 우선 아래와 같이 제가 페이스북에 올린 자료 공유합니다. 잘 부탁드립니다.

    가계동향조사 관련 논란이 무한정 계속될 것 같고 통계청이 샘플링도 제대로 못하는 기관으로 매도당하는 것 같아 올립니다. 그런 논란이나 매도가 문제의 본질과는 거리가 멀어서 문제해결에는 전혀 도움이 되지 않을 것 같아서기도 합니다. 단, 현재 저는 관련 업무를 담당하고 있지 않아 순전히 개인적인 의견 또는 주장임을 밝힙니다.

    <요지> [문제는 통계청에서 소득분배 분석목적으로 사용하기에 한계가 있다고 판단하여 폐지하려던 분기별 가구소득 조사의 부활입니다. 분기주기로 소득통계를 조사하여 분위별 변화 비교분석에 이용하는 나라는 어디에도 없습니다. 소득통계를 분위별 전년동분기비로 비교분석하는 것은 한계가 있습니다. 그리고 통계청의 독립성 문제입니다. 여러 가지 독립성이 있지만 조사방법 최종결정의 독립성도 확보되어야 합니다. 마지막으로 통계조직 확충 문제입니다. 현재 논란의 중심에 있는 가구소득 조사담당 실무자가 사무관 1명(최근까지 0.5명)과 주무관 2명입니다.]

    저는 2005년부터 3년 7개월간 사무관으로 가계조사를 담당하였습니다. 2010년부터 2년 8개월간 복지통계과장으로 근무하면서 가계금융복지조사를 개발․조사하였고 가계동향조사는 연간주기 가계지출조사로 전환하자는 제안을 하였습니다. 경위야 어쨌든 장기간 담당했던 통계가 정부정책의 효과를 정확히 나타냈는가가 국가적 논란의 대상이 되어 안타깝습니다.

    가구 소득분배 통계 연혁은 이렇습니다

    가계조사는 60년대부터 지속되어 왔는데 당초 목적은 소비자물가조사 항목선정 및 지수작성 가중치에 활용하기 위한 것으로 2인 이상 도시근로자 가구만을 대상으로 하였습니다. 소득도 조사하였는데 이는 소득수준별 소비지출 구조가 다르기 때문에 소득분위별 물가지수 작성 등에 활용하기 위한 것으로 판단됩니다. 그래서 소득개념, 조사단위 등도 소득분배 분석목적 조사의 국제기준과 다릅니다.

    그러나 다른 가구단위 소득통계가 없어서 소득분배지표로도 활용하기 위하여 근로자외 가구와 1인 가구를 포함 9천 가구로 확대 조사하고, 농어가경제조사 결과를 포함하여 전체가구를 커버하는 소득통계를 작성하였습니다. 이를 이용하여 지니계수 등 분배지표를 작성하여 OECD에 제공하기 시작하였습니다. 이에 따른 우리나라 지니계수는 OECD 국가의 중간수준이었는데, 현실반영도가 낮다는 지적이 지배적이었습니다.

    2012년도에는 가계금융복지조사를 개발하였는데, 다양한 목적이 있지만 소득분배부분에 국한하여 말씀드리자면, 국제기준에 부합하는 분배지표를 작성하기 위한 것입니다. 표본규모는 26천 가구(조사완료기준 2만 가구)였는데 이의 의한 지니계수는 OECD 국가 중 불평등 상위그룹 수준이었습니다. 타 부서 전보 이후에 발표되어 자세한 이유는 모르겠지만 가계금융복지조사 최초 공표 당시 지니계수는 포함되지 않았습니다. 여러 해가 지난 이후 존경하는 유청장님 시절 공표하였고 OECD에도 제공하기 시작하였습니다.

    통계청은 분기별 가구소득조사 폐지를 추진하였습니다

    가계금융복지조사를 개발, 조사하면서 가계조사는 가계지출조사로 개편하여 연간주기로 발표하는 방안을 제안하였습니다. 이 역시 타 부서 전보로 추진하지는 못하였는데, 나중에 유청장님이 부임하셔서 도입하셨습니다. KDI 재임시절 가계조사 마이크로데이터를 누구보다 많이 활용하셔서 개선 등 변경할 때마다 자문을 받았던 분입니다. 그래서 누구보다 애착이 많으실 텐데 수십년간 지속된 기존조사를 폐지하셨습니다. 후술하는 바와 같이, 무엇보다 소득분배의 분기별 분석은 부적절․비효율적이고, 아울러 매월 9천가구 대상 한 가구당 36개월간 가계부를 일일이 작성하는 방법이라 응답부담이 과중하고 그에 따라 특히 상위층의 무응답이 과다한 문제가 있기 때문이었을 것입니다. 무응답은 가중치 조정으로 해소할 수도 있지만 해당층의 응답표본수가 과소하면 결과가 부실할 가능성이 높습니다.

    기존 가계동향조사에서는 월 9천 표본가구 대상 가구별 36개월간 가계부를 작성(월평균 1/36가구씩 연동교체)하는 방법으로 조사하고 분기별로 집계․공표하였습니다. 반면, 개편 가계지출조사에서는 월 1천 표본가구 대상 1개월만 가계부 작성 및 지난 1년간 소득, 규모가 큰 지출항목 등에 대한 면접 조사 후 매월 1천 가구 전체를 새로운 표본으로 대체하는 방법으로 조사하고 연간주기로 집계․공표하고 있습니다.

    통계 선진국들도 가구소득 통계는 연간주기로 지난 1년간 소득에 대하여 1회 면접 조사하여 공표하는 방법을 이용합니다. 가계지출조사는 소규모 표본 대상으로 1~2주간 가계부조사 및 장기기억 가능 항목의 지난 1년간 등의 면접조사를 가구별로 1회만 조사하고 1년 내내 전체표본을 대체․조사하여 연간통계로 공표합니다. 가구단위 소득 및 지출조사의 목적이 구조나 분포, 분배상태를 파악하기 위한 것이기 때문에 모두 연간주기로 공표하는 것입니다.

    여기서 응답부담이 과중한 가계부조사를 하는 이유는 금액이 소액이고 구입주기가 잦아서 기억가능 기간이 짧은 지출항목(주로 식료품)을 조사하기 위해서 입니다. 대신 이러한 항목은 표본오차가 상대적으로 작고 응답부담이 크기 때문에 소규모 표본을 대상으로 가구당 1~2 주간만 조사합니다. 이와 같이 식료품 등을 세부 품목별로 조사하는 이유는 순전히 소비자물가조사 항목선정 및 지수가중치 산출을 위한 것입니다. 요약하자면 소득조사를 위하여 가계부 작성방법을 이용하는 나라는 없습니다. 가계부작성 지출조사를 할 때 대부분 소득도 조사하는데 지난 1년치 등에 대하여 면접조사합니다.

    분기소득조사의 부활이 문제입니다

    전술한 바와 같이 분기소득조사는 중단하기로 하였는데, 외부 요구로 부활하였습니다. 이 과정에서 표본수의 변화도 있었습니다. 그러다 보니 표본을 각 년도 모집단을 대표하도록 추출 및 가중치조정하여도 이런저런 비표본 오차가 발생할 가능성이 컸을 것입니다. 이러한 이유 등으로 통계청에서는 당초 공표하지 않으려 한 것으로 알고 있습니다. 나중에 공표하면서 시계열 비교에 한계가 있다는 정도의 단서만 단 것에 대하여 비판이 많습니다만, 위와 같은 저간의 사정 때문인 것으로 추측됩니다.

    분기별 소득분배 분석도 문제입니다

    계절․불규칙성이 있는 가구소득을 전년동기 대비 증감률로 분위별 비교분석하는 것은 한계가 있습니다. 전년동기비 계열의 구조적 문제점과 불규칙 요인에 의한 변동 때문에 수치가 실상을 제대로 보여주지 못하거나 잘못된 해석을 야기시킬 가능성이 큽니다. 하단* 그림의 좌측 그래프는 2개년도 통계수치 사례입니다. 우측 그래프는 그에 대한 2차년도의 증감률 그래프입니다. 좌측의 2차년도 통계수치는 4개 사례 모두 동일하여 우측 그래프의 전기대비 증감률이 모두 동일합니다. 그러나 전년동기비 그래프는 전년도 수치변화에 따라 제각각입니다.

    *그림파일을 올릴 수 없네요. 아래 주소를 주소창에 붙여넣고 접속하면 그래프(145페이지)가 있는 보고서 다운가능합니다.
    https://t1.daumcdn.net/cfile/cafe/256C964952CE028D20?download

    계절․불규칙 조정하여 전분기 대비 분석을 하면 위와 같은 문제가 해소될 수 있을 것입니다. 그러나 이러한 분기별 소득 증감추이는 계절조정치가 공표되는 국민계정 거시통계를 이용하여 분석하면 될 것입니다. 이와 같은 통계가 있음에도 가구단위 소득통계를 조사하는 목적은 소득의 가구간 분포․분배구조를 파악하기 위한 것이므로, 분기가 아닌 연간 통계를 이용하면 될 것입니다.

    <관련 참고 기사>

    https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=101&oid=469&aid=0000326011
    https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=110&oid=028&aid=0002413344

    [문재인 대통령은 28일 "경제정책은 긴 호흡이 필요하므로 단기적 성과에 매달리는 것은 바람직하지 않다"고 말했다. 문 대통령은 이날 오후 청와대에서 열린 수석·보좌관회의에서 "일자리 정책과 소득주도 성장 정책의 성과가 국민 실생활에서 구현되는 데는 시간이 필요할 것"이라며 이같이 밝혔다.]

    * 출처: https://news.v.daum.net/v/20180528175829614

    연속표본 문제는 아닙니다.

    한편, 연속조사 표본수의 변화가 있어서 문제가 야기됐다거나 연속조사된 가구만 분석하니 결과가 다르다고 하며 표본추출에 문제가 있다고 비판하는 분들이 많습니다. 횡단면 분석목적 통계에서는 표본추가․제외 및 가중치 조정을 거쳐 모집단을 대표하도록 하면 이론상 문제가 없습니다. 비표본오차 발생문제는 별개로 하고요. 횡단면 분석 통계는 원래 매번 새로운 표본을 추출하여 작성하고 시계열분석도 하는 것입니다. 예컨대 캐나다 통계청의 가계지출조사는 표본 가구당 2주간만 조사하고 매번 전체표본을 교체합니다. 이렇게 조사한 결과를 연간단위로 집계하여 시계열 분석, CPI 작성 등에 활용하고 있습니다.

    연속 조사한 표본만 이용하여 추정하면 표본편향에 따른 차이가 날 것입니다. 가중치를 조정하여 이러한 문제를 제거할 수도 있겠지만 표본규모 과소에 따른 표본오차 차이 등으로 다른 결과가 산출될 가능성이 클 것입니다.

    참고로 말씀드리자면, 통계청에는 표본의 연구, 통계청 및 외부요구 표본조사의 표본추출, 국가통계 승인․품질평가시 표본검토 등을 전담하는 부서가 따로 있습니다.

    조직확충과 독립성 확보가 필요합니다

    서두에서 언급했지만 최근 논란의 중심에 있는 가구소득 통계 담당자가 사무관 1명(최근까지 0.5명)과 주무관 2명입니다. 이들이 조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행합니다. 조사내용은 가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해합니다. 이외 인구, 경활, 경제 등의 통계업무의 인력사정도 마찬가지입니다.

    수년전 가계금융복지조사 결과 발표지연과 관련하여 이미 퇴사하신 청장님께서 국회에 증인으로 출석하셨습니다. 이러한 사태의 원천적 원인이 개개인보다는 시스템의 문제 때문일 텐데 어떠한 후속조치도 없었습니다. 통계청은 과거와 달리 경제통계뿐만 아니라 인구․사회 등 다양한 분야에 대한 통계도 작성합니다. 전체 국가통계에 대한 거버넌스도 합니다. 아울러 각부처 행정자료를 취합, 관리, 통계작성 목적 활용 및 이용자서비스도 합니다. 이를 제대로 수행하기 위해서는 인력확충과 아울러 독립성 확보 및 위상제고를 위한 조직개편이 절실합니다.

    감사합니다.

    추가) 통계청은 원자료를 충실히 제공하고 있습니다

    통계청이 원자료(마이크로데이터)를 제대로 공유하지 않는다고 비판하는 분도 많으십니다. 통계청은 MDIS를 통하여 무료로 온라인 접속 다운로드도 가능하도록 서비스하고 있습니다. 비밀보호를 위해서 또는 오남용이 우려(예, 패널분석용으로 샘플링하지도 않았고 그래서 패널가중치도 제공하지 통계를 패널분석)되어 다운로드용에서 제외한 변수 포함 원자료는 MDIS의 '이용자센터 서비스'를 통하여 이용할 수 있습니다.

    *MDIS: https://mdis.kostat.go.kr/index.do

    • N 2018.09.10 09:06  댓글주소  수정/삭제

      이건 위에 바이커님이 질문한 세가지 질문에 대한 답변이 아닙니다. 그건 아시죠?

    • 아아 2018.09.10 19:36  댓글주소  수정/삭제

      아아...김신호 과장님 고민 많으셨겠습니다. 그렇지만 이 답변은 여러 사람들을 바보로 알고 내놓은 답변이라고 밖에 이해되지 않네요. 어려운 상황에서도 국가 통계 생산하는 일에 매진하시는 것은 감사합니다만, 통계청의 전문성에 대해 심각한 우려를 가지게 되었습니다. 아이러니컬하게도.

  12. 김신호 2018.09.18 21:17  댓글주소  수정/삭제  댓글쓰기

    먼저, 연속표본 식별변수 포함 원자료는 MDIS의 "이용자센터 서비스"를 통하여 이용가능할 것입니다.
    이우진 교수님의 연속표본자료 대상 통계추정은 아래 기사에 따르면 그에 걸맞는 가중치를 산출, 이용한 것이 아닌 것 같습니다.

    http://egloos.zum.com/iandyou/v/3086370

    통계청은 이러한 오용을 우려하여 일부 변수에 대하여는 "이용자센터 서비스"를 통해서만 이용할 수 있도록 하고 있습니다. 만약 이런 공식적인 경로를 이용하여 그런 분석을 하였다면 외부 반출이 거부되었을 것입니다. 명백한 오류이기 때문입니다. 전문가이신 교수님이 이런 추정을 하여 통계청 공표통계에 문제가 있다고 지적할 정도인데 알아서 잘 이용하겠거니 하며 그냥 모두 오픈할 수 있겠습니까? 다시 한 번 강조하자면 통계청에서는 원자료를 충실히 제공하고 있습니다. 교수님 이전 포스팅에서 원자료에 문제가 있어서 공개하지 않는 것 같다는 말씀은 더 이상 하지 말아 주시기 바랍니다.

    가계동향조사 샘플링에 대하여는 아래 페이지를 참고하시기 바랍니다.

    https://meta.narastat.kr/metasvc/index.do?orgId=101&confmNo=101006&kosisYn=Y

    다만, 아시는 바와 같이 최근 변동이 잦아 아직 상세 보고서를 작성하고 있지 못하고 있는 것 같습니다.
    정착이 되면 아래 페이지 이용자용 통계정보보고서 pdf파일과 같은 상세보고서를 작성하여 공개할 것입니다.

    https://meta.narastat.kr/metasvc/index.do?orgId=101&confmNo=101006&kosisYn=Y

    1) 표본탈락은 체계적(월평균 1/36 가구 교체), 이사, 응답하다 불응 등의 경우에 발생할 수 있을 것입니다. 우리나라는 소득모집단이 없어서 위 설명자료에서와 같이 보조변수 자료를 이용하여 샘플링도 하고 가중치조정도 합니다.
    2) 표본전담부서가 따로 있습니다. 다양한 분석을 하는 것으로 알고 있습니만, 말씀하신 분석은 용이하지 않을 것 같습니다. 제가 현재 그 업무담당자가 아니라 원하시는 답변을 못 드려 죄송합니다.
    3) 가중치를 제대로 산정하고 각각의 층에 해당되는 조사결과가 적정규모 이상 있다면 가능할 수 있겠죠. 다만, 표본규모 감소에 따른 표본오차가 커지는 문제도 있을 것이고요.

    저는 최근 통계청 가계동향조사 결과에 문제가 없다고 주장하는 것이 아닙니다. 각년도의 표본이 모집단을 대표하도록 추출되었어도 폐지하려다가 부활시키고 과정에서 비표본오차 등이 커졌을 것이라고 누구라도 예상할 수 있을 것입니다.
    그런데 통계청에서 소득분배분석에 부적합하다고 판단하여 폐지하려던 조사가 외부요구로 부활되다 보니 이러한 문제들을 보도자료에서 상세히 설명도 못한 것이라고 저는 추측합니다.
    저는 분기별 소득분배분석을 위한 소득조사는 실익도 없고 혼란야기 가능성이 크고 비효율적이라고 생각합니다. 저는 이 문제가 표본문제보다 더한 핵심문제라고 생각합는데, 혹시 이에 대하여 어떻게 생각하시는지요?

  13. 김신호 2018.09.18 21:24  댓글주소  수정/삭제  댓글쓰기

    어떤 분인지 제가 답변을 엉뚱하게 하여 직장내 상사에게 미움받을 것이라고 말씀하셨던데, 맞습니다.
    분기소득통계 잘 만드는 방안을 검토하자는데
    저는 "문제는 분기소득조사 그 자체야, 쓰뚜삩" 이런 식이거든요.

    • 뭐랄까 2018.09.18 23:55  댓글주소  수정/삭제

      통계청 공무원들이 얼마나 우월적인 위치에 있으며 여러모로 간이 부었나 알겠습니다. 몇번이나 말하지만 통계청 예산 감사 먼저 들어가야 합니다.

  14. 김신호 2018.09.19 02:28  댓글주소  수정/삭제  댓글쓰기

    통계청 공무원들이 우월적 위치에 있다고요? 공무원 중 이만큼 을의 위치에 있는 경우가 있으면 말씀해 주세요. 어떻게든 사업체나 가구 대상 민감 또는 복잡한 내용 포함 자료를 받아내야 하기 때문에 을 중의 을 같은데요.
    샘플링이 아무리 정교해도 조사가 제대로 안 되면 말 그대로 가비지 인 가비지 아웃입니다. 통계청 흠집내서 현장조사에 영향을 미치면 문제가 될 수 있다고 생각해서 자중할 부분은 자중해 주시면 고맙겠습니다. 특히, 소위 식자층에서요.

    • 뭐랄까 2018.09.19 07:37  댓글주소  수정/삭제

      모든 변수를 포함한 원자료 릴리즈 권한을 쥐고 있는 게 data driven 시대에 갑 중 갑이지요.

      위에 김신호 과장님은 고려대 이우진 교수가 분석한 것을 오류라고 했고, MDIS 공식 경로를 이용해서 그런 분석을 하겠다고 했으면 외부 반출을 거부했을 거라고 하셨죠. 가계동향조사 통계 샘플링에 대해 속속들이 답변 못하면서도, 이우진 교수가 저렇게 분석을 할 줄 알았으면 원자료 안줬을 거라고 당당히 말하고 있지요. 김창환 교수가 전문적으로 따지고 드는 것에 대해서 답은 못하겠는데, 이우진 교수처럼 분석 할 줄 알았으면 공식 통계에서 원자료 안줬을 거다.하지만 우리는 원자료를 충실히 제공하고 있다. 왜냐하면 모든 변수를 너에게 공개할까 말까는 우리가 결정하는 거니까. 여기까지 읽으면 통계청 공무원들 간이 배밖에 나왔다고 생각할 수 있죠.

      위에 쓴 글을 보니 단 세명이 가계동향 조사 담당 공무원이 세 명이라는데 이 사람들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"한다는데, 이 사람들이 6천여 샘플을 취합하기 위해서 2천가구씩 방문했을까요. 조사원들을 썼겠지요. '조사 기획 및 '관리''를 했다니까요. 즉 조사원들 관리하는 갑들이지요.

      이 기회에 통계청에 과연 몇 명이나 통계 전공 석박사가 있는지, econometric analysis 수행할 수 있는 사람들은 몇 명이나 있는지도 공개하고, 과장급들이 대단치도 않은 구실로 해외 출장 국내 출장은 몇 번이나 다녔는지 통계관련 예산은 어떻게 집행되었는지 먼저 감사해야합니다.

  15. 김신호 2018.09.19 07:55  댓글주소  수정/삭제  댓글쓰기

    여기서 출장얘기가 왜 나오는 것인지요.
    다만, 인력에 대하여는 저도 문제가 있다고 생각합니다. 국제회의 참석하면 선진국은 전문가를 채용해서 계속 동일 업무를 담당합니다. 반면 우리나라는 일반 공무원시험 방식으로 채용하여 약 2년주기로 다른 업무로 전보 발령을 냅니다. 통계청에 국한된 문제가 아닙니다. 그러니 전문성이 떨어지는 문제가 있습니다. 이 문제에 대하여는 뭐랄까님 포함 여론 주도층에서 계속 문제제기를 하셔서 개선될 수 있도록 부탁드립니다. 세월호 사고 이후 개선 기미를 보이다가 사그러들어서 답답하더라고요.

    • 뭐랄까 2018.09.19 08:16  댓글주소  수정/삭제

      출장 이야기가 왜 나오는지 당사자들이 알 것이라고 생각합니다. 사람들은 다 듣고 보고 있으니까요. 아래 기사는 해외 연수지만 출장은 예외일까요. 통계청에 예산/사람 더 달라 하는데, 통계청이 과연 그만한 자원을 새겨낼 역량이 있는 조직인지, 이제까지 예산을 어떻게 집행했나를 돌아봐야지요.
      http://mn.kbs.co.kr/news/view.do?ncd=1355213

      그러니까 일반 공무원 시험으로 채용한 통계청 직원이, 통계학/경제학/사회학/ 경영학 박사/교수/연구원, 대기업, 증권가 어낼리스트들이 할 미래 analysis를 평가해서 데이터 릴리즈를 할까 말까 결정한단 말이지요. 이게 갑이죠.

    • 바이커 2018.09.20 08:07  댓글주소  수정/삭제

      저도 이 번 논란과 별 관련도 없는 출장 얘기 왜 하나 싶습니다.

      주제를 벗어나는 얘기하니까 황당하시죠? 동문서답하면 그렇게 황당한 법입니다.

    • 2018.09.20 10:59  댓글주소  수정/삭제

      비밀댓글입니다

    • 바이커 sovidence 2018.09.20 17:05 신고  댓글주소  수정/삭제

      그렇다 할지라도 이건 차원이 다른 문제입니다. 통계청만 특별히 그런 문제를 가지고 있는 것도, 공무원만 그런 것도 아닙니다. 따지고 들어가면 영어 문제까지 나옵니다.

      전문성은 위에 김신호 과장님 얘기가 맞습니다. 한국에서 공무원은 전문성을 기르기 보다는 순환보직으로 generalist를 기르는 모델입니다. 나름 장점이 없는건 아닌데, 그에 따라 문제도 노정합니다. 공무원의 트랙을 달리하는 모델 개발이 필요합니다.

    • 2018.09.22 08:46  댓글주소  수정/삭제

      비밀댓글입니다

    • 바이커 sovidence 2018.09.22 12:31 신고  댓글주소  수정/삭제

      알려주셔서 감사합니다. 나중에 기회가 있으면 저도 한 번 알아보도록 하겠습니다.

    • 유학생 2018.09.25 18:43  댓글주소  수정/삭제

      과장님. 이렇게 답변하시면 사실 누가 더 공조직과 일하고 싶어질 사람이 있겠습니까..? 데이터 분석도 논리로 하는건데 최소한 토론하며 답변 다실땐 다른 사람의 주장을 읽어보고 다셔야죠. 모르는건 모른다고 하시구요.

      제 필드가 사회과학이 아닌게 이럴땐 다행스럽네요. 댓글들 읽다 하도 답답해서 남기고 갑니다.