통계청장을 왜 교체했는지, 교체가 정당했는지 여부는 각자 알아서들 판단할 일. 아무리 논쟁해도 이거는 결론이 안날 것.


논쟁을 하고 정리해서 대략 합의가 가능한 점들은 

(1) 가계동향조사의 시계열적 비교에 문제가 있었느냐는 점과,  

(2) 데이타 제공을 둘러싼 통계청의 태도가 적절했냐는 점. 


(1)과 (2) 모두에 문제가 있어도 통계청장을 교체하지 않을 수도 있고, 둘 다 문제가 없어도 교체할 수 있는 것. 이념에 관계없이 위 두 가지를 같이 논의할 수 있는 사람이 있고, 그럴 수 없는 사람이 있음. 후자의 사람들은 뭐... 


자 그럼 통계의 객관성에 대해 상당한 신념을 가지고 있는 제가 왜 통계청장 교체에 대해 별 불만이 없는지, 합의 가능한 위 두 가지 문제에 대한 좀 더 자세한 제 생각을 말씀드리겠음. 


블로그 글은 가능한 요점만 간단히 짧게 쓸려고 하는데, 워낙 논란인 주제인데다, 가계동향조사 조사방식이 일반적 상식으로 알고 있는 내용이 아니다 보니, 이 번 포스팅은 좀 길고, 다른 포스팅보다 좀 지루할 것. 






가계동향조사를 둘러싼 논란의 핵심은 2016-2018년 데이타의 연도별 비교가 적절하냐는 것. 통계청장의 교체를 둘러싼 논란은 각자의 판단 영역이지만, 가계동향조사의 연도별 비교 적절성 여부로 논쟁을 좁히면, 적절하지 않다는 입장이 받아들여질 가능성이 매우 농후함. 왜 그런지 한 번 보겠음. 


가계동향조사는 연도별 비교를 염두에 두고 설계되어 있음. 한 번 조사대상 샘플 가구가 되면 3년간 지속해서 조사함. 매년 1/3씩 기존 샘플을 탈락시키고, 1/3씩 신규 샘플을 추가하는 설계. 그런데 연도별 샘플 교체도 한꺼번에 하는 것이 아니라 6개월에 걸쳐서 월별로 조금씩 바꾸게 되어 있음. 따라서 연도별 비교를 하면 적어도 2/3 정도는 작년에도 있었던 샘플임. 표본 설계상 연도별 비교에서 한꺼번에 샘플이 바뀌는 일이 없고, 설사 표집오차가 있더라도 연도별 비교에 큰 무리가 없게끔 설계되어 있다는 것. 


이 때문에 가계동향조사는 횡단면 조사이지만, 종단면 조사의 성격을 가지고 있음. 2/3 정도의 샘플은 연도별 종단면 변화를 추적할 수 있게끔 설계되어 있음. 미국으로 치면 4-8-4 Outgoing rotation group으로 설계된 Current Population Survey(CPS)와 비슷함. 뒤에 자세히 얘기하겠지만, 미국은 CPS의 이런 특성을 연구자들이 모두 이용할 수 있게 자료를 제공하는데 한국 통계청은 그러지 아니함. 


어쨌든 이렇게 연도별 비교에 아무런 문제가 없어야 정상인 조사설계가 작년에 가계동향조사를 없애니 마니 하면서 큰 요동을 치게됨. 작년에는 5,500가구의 소규모 샘플로 진행하다가, 올해 가계동향조사 정상화로 8,000가구로 확장한 것. 


이에 따라 1/3만 신규 가구여야 정상인 조사가 올해는 작년 대비 57%의 가구가 신규 가구로 구성되었음. 게다가 올해는 2010년 센서스가 아닌 2015년 센서스 기준으로 표본 구성을 변동시킴에 따라 노인가구의 비중이 높아짐. 과거와 달리 가계동향조사 샘플의 연속성이 크게 낮아짐. 


게다가 조사방식도 과거에는 기장식, 즉 응답자가 직접 기입하는 방식이 주였는데, 올해 조사에서는 고소득층의 응답률을 높이기 위해 기장식이 아닌 면접식을 대폭 확대했다고 함.  


그 결과 연도별 직접 비교가 가능한지에 대해 세심한 주의가 필요해짐. 


두 연도 간 수치에 큰 변화가 없다면 연도간 비교에 별 문제가 없다고 일반적으로 가정할 수 있지만, 최근에 논란이 되었듯이 소득 분위별로 소득 증가율이 크게 달라졌다면 이 결과가 샘플의 변화로 인한 통계적 우연인지, 실체적 변화를 반영하는지 검증할 필요가 있음. 


그런데 검증을 어떻게 할 수 있겠음? 여기서 가계동향조사의 특성을 이용할 수 있음. 설사 표본에 큰 변화가 있더라도 샘플 교체와 신규 유입이 완전 랜덤이라면 신규 샘플과 연속 샘플의 소득 변화에 별로 다른 점이 없어야 정상임. 연속 샘플만으로 분석해도 전체 표본을 분석했을 때와 질적으로 동일한 결과가 나타나야 한다는 것. 


통계청에서 발표한 가계동향조사 전체 샘플 결과는 전반적인 인구구성변화를 반영하고 샘플 크기를 늘린 것. 전체 샘플은 인구 대표성이 높은 장점이 있고, 연속 샘플을 이용한 패널 기법은 연도별 변화를 추적하기에 더 적합함. 각각이 서로 다른 장점이 있음. 전체 샘플과 연속 샘플의 결과가 유사해서, 가계동향조사를 횡단면적으로도 종단면적으로도 분석할 수 있어야 정상임.  


그런데 고려대 이우진 교수가 검증해 보니, 1분위의 소득 감소는 신규 샘플에서만 나타나고, 연속 샘플에서는 그런 경향이 안나타났다고 함. 이우진 교수의 분석에 따르면 연속 샘플에서는 "1분위(저소득층) 소득은 2016~2017년 감소했다가 올해 17% 증가했다. 5분위(고소득층)의 경우 2016~2017년에는 소득이 15% 늘었다가 2017~2018년에는 2% 줄었다." 


연속 샘플에서는 저소득층 소득이 17% 늘었다니 전체 샘플을 이용한 통계청의 발표와는 달라도 너무 다른 결과임. 통계청 발표에 근거해 소득주도성장 때문에 저소득층의 소득이 오히려 줄었다고 공격하는 보수의 논리와는 완전히 다른 결과가 연속 샘플에서는 나온다는 것. 이 결과에 바탕해 소득주도성장으로 저소득층의 소득이 사실은 크게 늘었다고 말할 수도 있음. 


두 연도를 비교할 때, 횡단면 조사 두 개를 비교하는 것보다, 동일 샘플의 연도별 변화를 비교하는 패널 기법이 overtime 변화에 대한 기법으로 신뢰도가 더 높다는 것은 논란의 여지가 없이 명확한 것임. 


그런데 논란이 된 올해 가계동향조사는 전체 샘플을 이용한 횡단면 비교와, 패널로 유지된 샘플로 한정한 종단면 비교의 결과가 완전히 반대로 나온 것. 이렇게 되면 결과를 신뢰할 수 없게됨. 시쳇말로 나가리 판이 되는 것임. 


도대체 왜 두 결과가 반대인 것임? 


여기서 참고로 가계동향조사의 연속 샘플과 탈락 샘플은 일반적인 패널조사의 attrition과는 다름. 일반적인 패널조사는 샘플의 지속성 유지가 목표지만, 가계동향조사는 3년마다 샘플을 체계적으로 바꾸도록 설계되어 있음. 탈락 샘플과 연속 샘플 간에 차이가 원래는 거의 없어야 정상임. 즉, 연속 샘플은 소득이 증가한 가구만 남고 탈락 샘플은 소득이 감소한 가구로 이뤄져서, 연속샘플로 조사하면 저소득층의 소득 증가가 과대 계상되는 그런 상황이 아님. 이우진 교수의 방법론이 어떤 체계적인 bias를 가질 가능성이 없어야 정상임.   


통계청 담당 과장은 조사 대상의 중복률이 아니라 표본의 대표성이 더 중요하다며 대통령 지지율 조사를 예로 들었다는데, 위에서 자세하게 얘기한 연속 샘플과 신규 샘플의 격차를 전혀 설명하지 못하는 말도 안되는 변명임. 유경준 전임 청장도 표본의 대표성만 얘기하지, 연속 샘플과 신규 샘플의 격차에 대해서는 전혀 말하지 않았음. 


통계청 담당 과장의 변명은 예전에 (2012년인가? 기억이 가물) 가계금융복지조사와 가계동향조사의 불평등 정도가 크게 다르게 나타났는데, 당시 담당 과장이 그래도 가계동향조사가 더 신뢰할만한 국가 공식 지표라고 아무런 설명도 없이 박박 우기는 답변을 내놓았던 것과 비슷하다는 생각임. 지금의 통계청 공식 입장은 조만간 소득불평등 근거 자료를 가계동향조사가 아닌 가계금융복지조사로 바꾸는 것임. 가계동향조사에 문제가 없다던 당시 담당과장의 입장에서 180도 선회한 것. 


그래서 저소득층의 소득이 줄었다는 것임 늘었다는 것임? 어느 결과가 맞는 것임? 


세가지 가능성이 존재함. 첫번째는 2018년 추가 샘플에 문제가 있었을 가능성; 두번째는 연속 샘플에 바이어스가 있을 가능성; 세번째는 2018년 자료에서 연속샘플 추가샘플 둘 다 문제가 없는데 2017년 자료에 문제가 있었을 가능성. 즉 마지막 가능성은 2017-2018년 사이에 저소득층의 소득이 증가했는데, 2017년 자료가 저소득층의 소득을 제대로 측정하지 못해서 이런 사단이 벌어졌다는 것. 2017년 조사는 2010년 센서스 기반이라 노인가구가 적었고, 저소득층이 더 많이 샘플에 포함되어 있었어야 하는데, 무슨 이유에선가 2017년 샘플에서 저소득층이 체계적으로 누락되었다는 것. 2017년에 엉망이던 샘플을 2018년에 제대로 바로 잡으니 문제가 생겼을 가능성. 


즉 세번째 가능성은 가계동향조사는 어차피 없어질 조사라고 생각해서 2017년 조사가 정교하지 않게 이루어졌을 가능성임. 이게 다 사람이 하는 일이라 항상 휴먼 에러가 있음. 2018년에 없어질 가계동향조사를 2017년에 뭐 때문에 그렇게 열심히 하겠음. 대충하고 말지. 


통계청 휴먼 에러의 한 사례로 예전에 센서스 직업코드를 교체하면서 두 센서스간 연속 비교가 가능한 crosswalk 표를 제대로 안만들어서 생난리가 났던 적도 있음.  


어쨌든 저소득층의 소득이 작년 대비 올해 늘었는지 줄었는지, 샘플에 따라 차이가 나는 이유가 위에 언급한 셋 중 어느게 맞는지는 현재까지의 분석 결과로써는 알 수 없다가 정답임. 


무엇이 되었듯 그래서 내릴 수 있는 결론은 가계동향조사 소득분위별 2016~2018년 변화 비교를 신뢰할 수 없다는 것. 저는 이 정도는 이념에 관계없이 합의할 수 있는 영역이라고 생각함.  






다음 주제로 넘어가기 전에 덧붙이는 말. 그럼 이렇게 신뢰하기 어려운 가계동향조사를 생산한 통계청은 크게 잘못한 것인가? 


그런거 아님. 통계는 항상 표본오차와 측정오차를 가지고 있음. 어쩌다가 결과가 튀기도 하고 그런 것. 이 번 가계동향조사처럼 우여곡절을 겪으면 통계 원자료의 안정성이 낮아지는게 일반적임. 위에서 말했지만 2017년 조사가 이상하고, 2018년 조사가 제대로 된 것일 가능성도 배제할 수 없음. 2018년에 조사 제대로 한 통계청 사람들이 무슨 죄임? 통계를 분석하고 이용할 때는 이러한 문제점들을 인식하고 여러 가능성에 대한 열린 태도를 가져야 함. 


그런데 한국에서는 통계 결과를 무슨 불변의 진리인양 간주하고 생난리를 피우는 경향이 있음. 교수들이 통계청 결과를 공격할 때도 에러의 가능성, 여러가지 통계가 일치하지 않지만 그래도 자료로써의 가치가 있는 정도를 보지 않으려고 함. 


아래 최근 논란을 둘러싼 통계청의 태도를 비판하겠지만, 한 편으로는 통계청의 태도가 이해되는 측면도 있다는 점을 미리 말해 둠.






위에 얘기한 가계동향조사의 문제점에 대해서는 통계에 대한 지식이 있는 사람들이라면 그래도 쉽게 합의할 수 있겠지만, 통계청의 대응 태도가 문제가 있었는지에 대해서는 좀 더 의견이 갈릴 것. 그래도 이 논란 와중에 통계청의 대응과 태도는 어떤 문제점이 있는지 한 번 따져보겠음. 


우선 위에서 언급한 연속 샘플과 교체 샘플의 큰 격차가 국가적 논란이 생긴 후 통계청이 아닌 학자들에 의해서 이의가 제기되었다는 것 자체가 통계청의 문제점을 드러냄. 


내부 사정을 자세히 알 수 없지만 가계동향조사 표본을 설계하고 원자료를 가장 먼저 분석한 통계청이 문제점을 충분히 인식했을 가능성이 상당함. 그럼에도 불구하고 문제에 대한 자세한 설명없이 오랫동안 깔아뭉개고 있었다는 비난을 면할 길이 없음. 국가적 논란에도 불구하고 주무 부처인 통계청의 대응이 안일했음. 


안일하기만 했으면 그 나마 다행인데, 예전에 청와대에서 가계동향조사를 개인소득으로 바꿔서 노동자 가구의 소득은 늘었다고 대통령이 직접 얘기할 때 통계청에서 그런 통계는 없다는 식으로 대놓고 딴지를 놓기도 했음. 


통계청에서 원자료를 가공하여 새로운 함의를 도출하는 방식에 대해 딴지를 거는 것은 이해하기 어려움. 왜 그런지 밑에 다시 자세히 말하겠음. 


다음으로 언론 보도에 따르면 통계 원자료를 제출하라는 청와대의 요청에 제대로 응하지 않을려고 했다는데, 이 태도도 잘못된 것. 


통계법에 따르면 통계 원자료는 공식 발표 하루 전에 유관 기관에 제출할 수 있지만, 국가 경제 위기나 국가적 혼란이 예상될 때는 그 전에라도 원자료를 제공할 수 있음. 


통계청은 이 법조문을 자료를 제공하지 않는 근거로 삼는데, 저는 오히려 이 법조문을 자료를 제공하는 근거로 삼아야 한다고 봄. 가계동향조사 결과가 경제적 위기와 국가적 논란의 대상이 되기 때문에 유관기관에 공식 발표 이전에 원자료를 제공했다고 하면 깔끔하지 않음? 지금과 같이 통계자료로 경제적 문제가 심각하게 대두될 때 통계청에서 유관기관에 자료 제공을 한정하면 어쩌자는 것임? 


통계법을 자료 제공을 막기 위한 방패막이로 사용하는 태도가 잘못되었다고 봄. 통계법은 통계의 원활한 작성과 이용을 위한 것이지, 통계청의 콧대를 높이라는 법이 아님. 


통계법으로 통계 이용을 제한하는 해석이 왜 잘못인지, 통계법 적용의 예를 하나 들어 보겠음. 통계법에 따르면 인구총조사 (즉 센서스)에 정당한 이유없이 응하지 않을 경우 과태료 100만원에 처할 수 있게끔 되어 있음. 한국만 그런게 아니라 미국도 비슷하게 처벌함. 하지만 유사 이래 이 법으로 과태료를 물은 사람은 내가 알기로 단 한 명도 없음. 처벌을 목적으로 한 법이 아니라, 국민은 통계 작성에 협조해야 한다는 의무에 대한 선언적 의미가 있는 것. 센서스에 제 때 응하지 않는다고 통계법대로 과태료 100만원씩 때리면 볼만할 것임. 


이처럼 통계법은 통계의 원활한 작성과 활용의 편의를 위한 것이지, 자료 이용의 제한을 위한 규제가 되어서는 안됨. 





그럼 통계 원자료를 제공하는게 왜 중요한가. 


통계청은 통계 생산에 최고의 전문성을 가진 기관임. 통계 분석이 아님. 장담하는데 통계 분석 능력은 통계청 직원들보다 대학 교수들이나 연구원들이 앞섬. 


일반적으로 착각하는 것 중의 하나가 (a) 통계 원자료 생산과 (b) 생산된 원자료 분석 능력이 같은 건줄 아는 것. 양자는 매우 다름. 대학 교수나 연구원들은 전자의 능력이 별로 없고, 통계청 직원들은 후자에 특화되어 있지 않음. 통계청의 원자료 분석은 대부분 기술 통계임. 


여담으로 대학 교수 중에 통계 원자료 생산을 제대로 하는 분은 아마 KGSS를 생산하는 성균관대 김지범 교수일 것. 미국 시카고대 NORC에서 미국 GSS 자료 생산하다가 한국에 오신 분. 샘플링 기법을 제대로 적용해서 조사함. 그래서 KGSS가 매우 비싼 자료인데, 그 가치가 뭔지 대부분 모름. 여론조사 회사들도 분석 능력보다는 생산 능력에 전문성이 있는 기관임. 


반면 통계청은 복잡한 통계 모형을 이용한 자료 분석이 아니라, 복잡한 샘플링 기법을 이용한 자료 생산에 특화되어 있음. 이 때문에 자료 분석 훈련을 주로 받은 박사나 연구원들이 통계청에 취직하면 별로 기를 피지 못함. 통계청에서 박사들을 제대로 활용 못하는 이유는 이 조직이 잘못되어서가 아니라 통계청에서 필요로 하는 지식과 박사들의 지식이 불일치하기 때문임. 박사들이 통계청에 특화된 전문성을 확보할 때 까지 시간이 걸림.  


여기서 또 한가지 착각하지 말아야 하는 것은 기술통계가 중요하지 않다는 식의 태도임. 국가통계는 다변량 분석을 하는 것이 아니고 기술 통계로 기초적이고 연속적인 자료를 제공하는 것이 목적임. 이런 목적에 맞는 활동을 통계청이 수행함. 


그런데 이런 기술 통계를 넘어선 분석이나, 또는 기술통계라도 인구에 따른 교차 분석의 필요성이 있을 때는 원자료가 반드시 필요함. 기술통계는 샘플에 대한 가정 외에 많은 "추정"이 들어가지 않지만, 어떤 정책적 판단을 위해서는 기술통계를 넘어선 복잡한 다변량 분석으로 정책 효과 등을 추정할 필요가 있음. 


그런데 통계청이 정책 생산 분석 기관에 자료 제공을 꺼려하면 어쩌라는 것임? 


통계청이 원자료 제공을 꺼려하는 이유는 겉으로는 프라이버시 보호지만, 실제로는 자신들의 오류가 드러나거나, 통계를 둘러싼 논란의 대상이 되는 것을 피하려는 조직 보호, 조직 이기주의 논리일 개연성이 매우 높음. 


이 번에 이우진 교수와 다른 팀에서 분석한 대체 샘플과 유지 샘플의 격차도 통계 원자료가 없으면 불가능한 것임. MDIS의 일반 공개용 원자료에는 대체 샘플과 유지 샘플에 대한 변수가 없음. 어느 샘플이 대체된 것이고 어느 샘플이 연속된 것인지 알 길이 없음. 이우진 교수와 같은 분석은 샘플링에 대한 정보를 포함한 원자료가 없으면 아예 분석이 불가능함. 아마 심상정 의원이 통계청 원자료를 구해서 이우진 교수팀에게 제공했을 것. 그 때문에 가계동향조사의 문제도 제대로 밝혀진 것. 


그런데 통계청이 청와대에서 통계 분석에 특화된 연구원들에게 자료 분석을 시키기 위해서 통계청에 원자료를 요청한다고 통계 조작이고 간섭이라고 불만을 터뜨린다는게 말이 됨?





그럼 다른 나라에서는 어떻게 하나? 나라마다 다르지만 한국이 맨날 떠드는 천조국의 예를 들어 보겠음. 


가계동향조사와 가장 유사한 미국의 CPS는 대체 샘플과 유지 샘플에 대한 전체 정보를 공개함. CPS를 패널 자료로 만들 수 있는데 그 과정이 좀 복잡함. 그래서 미국 센서스국에서 원자료 전체를 미네스타 대학 인구센타에 제공해서, 미네소타 인구 센타에서 친절하게 CPS를 패널자료로 전환한 자료를 무료로 전세계 모든 사람들에게 제공함. 등록만 하면 데이타를 다운 받을 수 있음. 


한국 통계청은 청와대에서 자료를 달라고 해도 정권이 통계 조작할려고 한다고 노조가 성명서를 발표하는데, 미국은 전세계 모든 인민들에게 자신들의 자료를 공개하고 있음. 미네소타 대학의 자료는 추가 linking 작업과 harmonization 때문에 시기적으로 늦게 자료가 제공되기라도 하지만, NBER에 가면 아무런 가공이 없는 원자료가 1~2달 갭을 가지고 올라옴. 모든 학자가 능력만 되면 이 원자료를 분석할 수 있음. 


황수경 전청장 시기에 자료 제공을 특히 빡빡하게 했다고, 통계청의 독립을 지켰다고 기사에 나왔던데, 제가 보기에 이게 자랑거리가 아님. 오히려 욕먹을 일이지. 


정권이 통계를 조작하는 것은 결코 해서는 안되는 일이지만, 정권이 통계 원자료로 어떤 일이 벌어지는지 분석하는 것은 매우 권장해야 할 일임. "증거기반정책" 생산은 통계 분석없이 불가능함. 후자를 했다고 전자를 의심하고 공격하는 건 말이 안됨. 






마지막으로 평소 소신 반복함. 복지 국가는 통계 국가임. 통계 입국이 복지 입국의 길임. 복지를 제공할려면 통계가 필요하고, 세금을 부과할려면 통계가 필요함. 프라이버시를 강조하며 통계 원자료 활용을 막는 것은 복지의 발전을 막는 우회적 방법임. 그래서 앞으로 통계를 둘러싼 진보와 보수의 대립은 계속될 것으로 예상함. 진보는 데이타를 더 공개하자는 쪽으로, 보수는 프라이버시를 기치로 더 막자는 쪽으로. 


자료공개와 이용 얘기하면 빅브라더 떠올리며 프라이버시 강조하는게 진보인줄 아는 분들 있는데 그거 아님. 


본인이 진보적이면서 동시에 객관적이고 싶으면 통계 공부 열심히 할 것. 심지어 미국에 이런 웹사이트도 있음: 진보 통계돌이를 위한 직업 알선 사이트

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 이전 댓글 더보기
  2. 김신호 2018.09.05 03:03  댓글주소  수정/삭제  댓글쓰기

    한편, 잘 아시겠지만 종단면(패널)분석목적 통계가 있습니다. 이는 동일 표본을 장기간에 걸쳐 조사합니다. 그래서 가구, 개인 또는 유사(cohort)그룹이 직면하는 동태적 변화, 특정 상황의 지속기간 등과 이들의 원인 및 결과를 분석할 수 있습니다. 예컨대, 빈곤을 지속, 탈출, 진입하는 가구의 비율; 생애주기에서 개인이 얼마나 직업을 바꾸고 실업을 경험하며, 그것이 가구소득에 미치는 영향 등의 분석이 가능합니다.

    횡단 및 종단면 분석이 동시에 가능하도록 표본설계한 조사도 있습니다. 가계금융복지조사가 대표적인 사례입니다. 여기서는 횡단 및 종단 추정 가중치가 따로 있습니다(아래 링크된 통계정보보고서 pdf 참조).

    표본조사의 생명은 가중치입니다.

    https://meta.narastat.kr/metasvc/index.do?orgId=101&confmNo=930001&kosisYn=Y

  3. 김신호 2018.09.05 03:19  댓글주소  수정/삭제  댓글쓰기

    참고로 저는 통계청에 근무하는 김신호입니다.
    사무관 및 과장시절 가계동향조사 기획업무를 하였고, 가계금융복지조사를 개발하였습니다.
    저는 그렇다고 가계동향조사가 문제가 없다고 주장하는 것이 아닙니다. 없애려다가 살리는 등의 과정 속에서 비표본오차가 더 커질 수밖에 없었을 것입니다. 다만, 잘못된 근거에 의한 비판이 오히려 논점을 흐리게 하는 결과를 초래하는 것이 우려되어 장황하게 답글을 올리는 것입니다.

    감사합니다.

    • 어휴 2018.09.05 12:54  댓글주소  수정/삭제

      cross sectional data와 longitudinal data가 있으며 거기에 이런저런 예가 있는 거, stat 101만 수강하면 모르는 사람이 어디 있나요. 문제는 가계 동향조사는 cross sectional이지만 longitudinal 성격을 갖고 있고, 만일 연도간 수치에 큰 차이가 있으면 연속샘플만 비교해도 전체샘플을 분석한 결과와 차이가 없어야 한다고 위에 적혀 있잖아요. 본문을 읽지 않고 댓글을 다는군요.

  4. 김신호 2018.09.05 04:53  댓글주소  수정/삭제  댓글쓰기

    횡단면 통계사례 하나 추가하겠습니다.

    캐나다 통계청의 가계지출조사입니다.

    여기서는 매 2주마다 표본을 교체하여 조사합니다.
    다음 해에도 같은 방법으로 새로운 가구로 교체해가며 조사합니다.
    연속조사하는 가구가 하나도 없습니다.

    https://www150.statcan.gc.ca/n1/pub/62f0026m/62f0026m2017002-eng.htm

    그 결과를 이용하여 전체 및 각종 지출 항목별로 전년대비 증감분석 등을 하고 있습니다.
    소비자물가 가중치 자료로도 활용하고 있습니다

    https://www150.statcan.gc.ca/n1/daily-quotidien/171213/dq171213b-eng.htm

  5. 2018.09.05 08:54  댓글주소  수정/삭제  댓글쓰기

    Kim /

    말씀하시는 게 너무 원론적이라 논란의 여지가 없습니다. 바이커님 말씀대로 '맞는 이야기인데 하나마나한 이야기'를 통계청 담당자님께 직접 듣는 것 같아서 아쉽습니다.

  6. ... 2018.09.05 15:43  댓글주소  수정/삭제  댓글쓰기

    타당한 말씀이시고 저도 동의하지만 여전히 꺼림직한 부분들이 많습니다. 경질이야 할 수 있죠. 그런데 신임 통계청장이 계량 분석과는 상당히 거리가 먼 분이더군요. 박사논문이 계걍붖석과는 거리가 멀 뿐만 아니라 보사연에서도 통계를 생산 분석하는 일과는 전혀 관련이 없던 분이던데요.

    • 바이커 2018.09.05 19:16  댓글주소  수정/삭제

      분석적 맑시즘은 일반적으로 알고 있는 맑시즘과 방법론적으로 많이 다릅니다. 그리고 강신욱 청장은 보사연에서 양적 분석, 그 중에서도 소득분배에 대해서 계속 보고서를 써왔습니다.

      이 분이 통계청장으로 잘하고 뭔가 변화를 가져올지, <통계생산>에 대해서 지식이 있는지 저로써는 알 수 없으나, <통계 분석>에 대해서 전문성이 없다고 할 수 있는 분은 아닙니다.

  7. .... 2018.09.05 19:23  댓글주소  수정/삭제  댓글쓰기

    분석적 맑시즘에 대해서는 조금 압니다. 아무래도 영미권의 전통이 있는 분야이고, 이론을 기반으로 계량 연구도 많이 쏟아져 오고 있는 건 사실입니다만 강신욱 청장님의 박사논문은 그런 연구가 아니라 오히려 이론적 논의나 경제사에 더 가까운데요. 말씀하신 것처럼 통계 생산과 분석은 다른 분야이고 신임 청장님은 이 생산 분야에 전문성이 없는 것으로 알고 있습니다. 복지패널 설계하고 분석에도 관여하지 않으신 걸로 알고 있고요.

    • 바이커 2018.09.05 19:33  댓글주소  수정/삭제

      MDIS를 론칭한 유경준 전임청장님도 통계생산하던 분이 아닙니다. 빈곤연구하던 분이죠. 통계청장으로 임명된 학자 중에 통계생산에 전문성이 있는 분은 별로 없습니다.

      신임청장의 자질에 대해서 여러 측면에서 의구심을 표할 수 있지만, 이 분이 과거에 임명된 학자 분들과 그렇게 다른지는 저는 잘 모르겠습니다.

  8. 궁월 2018.09.06 00:37  댓글주소  수정/삭제  댓글쓰기

    ‘연속’ 자체가 바이어스지요. 소득이 급격히 준 사람들이 조사에 계속 참여할 가능성이 얼마나 되겠습니까. 그것부터 확인해야 객관적인 조사가 될텐데 그 확인 작업이 가능하겠어요?

    • 바이커 2018.09.06 10:12  댓글주소  수정/삭제

      그럴 수 있습니다. panel conditioning bias라고 부르는 효과죠. 패널 연속 표본이 있는 한 어쩔 수 없는 효과입니다. 그런데 설사 이 편향이 있어도 신규 표본과 대체 표본의 비율만 일정하면 연도별 일관성있는 비교에 문제가 없습니다. 문제는 이 번 처럼 신규 표본과 대체 표본의 비율이 달라질 때 도출됩니다. 편향이 결과에 영향을 끼치는 정도가 과거와 달라지니까요. 그래서 설사 panel conditioning 효과가 있다 하더라도 표본 구성이 많이 바뀐 올해는 작년과 비교가 적절하지 않다는 이우진 교수의 결론은 달라지지 않을 수 있습니다.

      또 한가지. 앞에서도 언급했는데, 만약 2017에서 2018로 넘어오면서 소득이 줄어든 가구가 유난히 많다면 올해 패널 탈락율이 유난히 높았을 것입니다. 이건 바로 확인 가능합니다.

    • 별사탕 2018.09.06 14:17  댓글주소  수정/삭제

      조사에 계속 참여한 사람들만의 (조건부) 소득분포와 모집단의 소득분포의 모양이 같냐고 하면 궁월님께서 말씀하신 이유 때문에 아마 아니겠지요. 하지만 패널 연속 표본이 각각 2/3와 1/3일 때의 소득분포, 모집단의 소득분포가 모두 같냐고 한다면 마찬가지 논리로 아마 아니겠지요. 바이커님께서 별도의 글로 잘 설명해주셨네요.

      통계청이 제공하는 횡단면 가중치로 이걸 교정할 수 있으려면 이 가중치가 표본구성 변화, 무응답, 탈락으로 인한 비표본오차 등을 모두 교정해줄 수 있어야 하는데, 소득수준과 관련이 있는 unobserved heterogeneity의 변화가 응답률에 영향을 미칠 수 있으므로 저는 개인적으로 이것이 어렵다고 생각합니다. 다만 이에 대해서 김신호 과장님께서 곧 답변을 해주시리라 기대합니다.

  9. 김신호 2018.09.10 02:12  댓글주소  수정/삭제  댓글쓰기

    교수님 답변이 늦어 죄송합니다. 우선 아래와 같이 제가 페이스북에 올린 자료 공유합니다. 잘 부탁드립니다.

    가계동향조사 관련 논란이 무한정 계속될 것 같고 통계청이 샘플링도 제대로 못하는 기관으로 매도당하는 것 같아 올립니다. 그런 논란이나 매도가 문제의 본질과는 거리가 멀어서 문제해결에는 전혀 도움이 되지 않을 것 같아서기도 합니다. 단, 현재 저는 관련 업무를 담당하고 있지 않아 순전히 개인적인 의견 또는 주장임을 밝힙니다.

    <요지> [문제는 통계청에서 소득분배 분석목적으로 사용하기에 한계가 있다고 판단하여 폐지하려던 분기별 가구소득 조사의 부활입니다. 분기주기로 소득통계를 조사하여 분위별 변화 비교분석에 이용하는 나라는 어디에도 없습니다. 소득통계를 분위별 전년동분기비로 비교분석하는 것은 한계가 있습니다. 그리고 통계청의 독립성 문제입니다. 여러 가지 독립성이 있지만 조사방법 최종결정의 독립성도 확보되어야 합니다. 마지막으로 통계조직 확충 문제입니다. 현재 논란의 중심에 있는 가구소득 조사담당 실무자가 사무관 1명(최근까지 0.5명)과 주무관 2명입니다.]

    저는 2005년부터 3년 7개월간 사무관으로 가계조사를 담당하였습니다. 2010년부터 2년 8개월간 복지통계과장으로 근무하면서 가계금융복지조사를 개발․조사하였고 가계동향조사는 연간주기 가계지출조사로 전환하자는 제안을 하였습니다. 경위야 어쨌든 장기간 담당했던 통계가 정부정책의 효과를 정확히 나타냈는가가 국가적 논란의 대상이 되어 안타깝습니다.

    가구 소득분배 통계 연혁은 이렇습니다

    가계조사는 60년대부터 지속되어 왔는데 당초 목적은 소비자물가조사 항목선정 및 지수작성 가중치에 활용하기 위한 것으로 2인 이상 도시근로자 가구만을 대상으로 하였습니다. 소득도 조사하였는데 이는 소득수준별 소비지출 구조가 다르기 때문에 소득분위별 물가지수 작성 등에 활용하기 위한 것으로 판단됩니다. 그래서 소득개념, 조사단위 등도 소득분배 분석목적 조사의 국제기준과 다릅니다.

    그러나 다른 가구단위 소득통계가 없어서 소득분배지표로도 활용하기 위하여 근로자외 가구와 1인 가구를 포함 9천 가구로 확대 조사하고, 농어가경제조사 결과를 포함하여 전체가구를 커버하는 소득통계를 작성하였습니다. 이를 이용하여 지니계수 등 분배지표를 작성하여 OECD에 제공하기 시작하였습니다. 이에 따른 우리나라 지니계수는 OECD 국가의 중간수준이었는데, 현실반영도가 낮다는 지적이 지배적이었습니다.

    2012년도에는 가계금융복지조사를 개발하였는데, 다양한 목적이 있지만 소득분배부분에 국한하여 말씀드리자면, 국제기준에 부합하는 분배지표를 작성하기 위한 것입니다. 표본규모는 26천 가구(조사완료기준 2만 가구)였는데 이의 의한 지니계수는 OECD 국가 중 불평등 상위그룹 수준이었습니다. 타 부서 전보 이후에 발표되어 자세한 이유는 모르겠지만 가계금융복지조사 최초 공표 당시 지니계수는 포함되지 않았습니다. 여러 해가 지난 이후 존경하는 유청장님 시절 공표하였고 OECD에도 제공하기 시작하였습니다.

    통계청은 분기별 가구소득조사 폐지를 추진하였습니다

    가계금융복지조사를 개발, 조사하면서 가계조사는 가계지출조사로 개편하여 연간주기로 발표하는 방안을 제안하였습니다. 이 역시 타 부서 전보로 추진하지는 못하였는데, 나중에 유청장님이 부임하셔서 도입하셨습니다. KDI 재임시절 가계조사 마이크로데이터를 누구보다 많이 활용하셔서 개선 등 변경할 때마다 자문을 받았던 분입니다. 그래서 누구보다 애착이 많으실 텐데 수십년간 지속된 기존조사를 폐지하셨습니다. 후술하는 바와 같이, 무엇보다 소득분배의 분기별 분석은 부적절․비효율적이고, 아울러 매월 9천가구 대상 한 가구당 36개월간 가계부를 일일이 작성하는 방법이라 응답부담이 과중하고 그에 따라 특히 상위층의 무응답이 과다한 문제가 있기 때문이었을 것입니다. 무응답은 가중치 조정으로 해소할 수도 있지만 해당층의 응답표본수가 과소하면 결과가 부실할 가능성이 높습니다.

    기존 가계동향조사에서는 월 9천 표본가구 대상 가구별 36개월간 가계부를 작성(월평균 1/36가구씩 연동교체)하는 방법으로 조사하고 분기별로 집계․공표하였습니다. 반면, 개편 가계지출조사에서는 월 1천 표본가구 대상 1개월만 가계부 작성 및 지난 1년간 소득, 규모가 큰 지출항목 등에 대한 면접 조사 후 매월 1천 가구 전체를 새로운 표본으로 대체하는 방법으로 조사하고 연간주기로 집계․공표하고 있습니다.

    통계 선진국들도 가구소득 통계는 연간주기로 지난 1년간 소득에 대하여 1회 면접 조사하여 공표하는 방법을 이용합니다. 가계지출조사는 소규모 표본 대상으로 1~2주간 가계부조사 및 장기기억 가능 항목의 지난 1년간 등의 면접조사를 가구별로 1회만 조사하고 1년 내내 전체표본을 대체․조사하여 연간통계로 공표합니다. 가구단위 소득 및 지출조사의 목적이 구조나 분포, 분배상태를 파악하기 위한 것이기 때문에 모두 연간주기로 공표하는 것입니다.

    여기서 응답부담이 과중한 가계부조사를 하는 이유는 금액이 소액이고 구입주기가 잦아서 기억가능 기간이 짧은 지출항목(주로 식료품)을 조사하기 위해서 입니다. 대신 이러한 항목은 표본오차가 상대적으로 작고 응답부담이 크기 때문에 소규모 표본을 대상으로 가구당 1~2 주간만 조사합니다. 이와 같이 식료품 등을 세부 품목별로 조사하는 이유는 순전히 소비자물가조사 항목선정 및 지수가중치 산출을 위한 것입니다. 요약하자면 소득조사를 위하여 가계부 작성방법을 이용하는 나라는 없습니다. 가계부작성 지출조사를 할 때 대부분 소득도 조사하는데 지난 1년치 등에 대하여 면접조사합니다.

    분기소득조사의 부활이 문제입니다

    전술한 바와 같이 분기소득조사는 중단하기로 하였는데, 외부 요구로 부활하였습니다. 이 과정에서 표본수의 변화도 있었습니다. 그러다 보니 표본을 각 년도 모집단을 대표하도록 추출 및 가중치조정하여도 이런저런 비표본 오차가 발생할 가능성이 컸을 것입니다. 이러한 이유 등으로 통계청에서는 당초 공표하지 않으려 한 것으로 알고 있습니다. 나중에 공표하면서 시계열 비교에 한계가 있다는 정도의 단서만 단 것에 대하여 비판이 많습니다만, 위와 같은 저간의 사정 때문인 것으로 추측됩니다.

    분기별 소득분배 분석도 문제입니다

    계절․불규칙성이 있는 가구소득을 전년동기 대비 증감률로 분위별 비교분석하는 것은 한계가 있습니다. 전년동기비 계열의 구조적 문제점과 불규칙 요인에 의한 변동 때문에 수치가 실상을 제대로 보여주지 못하거나 잘못된 해석을 야기시킬 가능성이 큽니다. 하단* 그림의 좌측 그래프는 2개년도 통계수치 사례입니다. 우측 그래프는 그에 대한 2차년도의 증감률 그래프입니다. 좌측의 2차년도 통계수치는 4개 사례 모두 동일하여 우측 그래프의 전기대비 증감률이 모두 동일합니다. 그러나 전년동기비 그래프는 전년도 수치변화에 따라 제각각입니다.

    *그림파일을 올릴 수 없네요. 아래 주소를 주소창에 붙여넣고 접속하면 그래프(145페이지)가 있는 보고서 다운가능합니다.
    https://t1.daumcdn.net/cfile/cafe/256C964952CE028D20?download

    계절․불규칙 조정하여 전분기 대비 분석을 하면 위와 같은 문제가 해소될 수 있을 것입니다. 그러나 이러한 분기별 소득 증감추이는 계절조정치가 공표되는 국민계정 거시통계를 이용하여 분석하면 될 것입니다. 이와 같은 통계가 있음에도 가구단위 소득통계를 조사하는 목적은 소득의 가구간 분포․분배구조를 파악하기 위한 것이므로, 분기가 아닌 연간 통계를 이용하면 될 것입니다.

    <관련 참고 기사>

    https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=101&oid=469&aid=0000326011
    https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=110&oid=028&aid=0002413344

    [문재인 대통령은 28일 "경제정책은 긴 호흡이 필요하므로 단기적 성과에 매달리는 것은 바람직하지 않다"고 말했다. 문 대통령은 이날 오후 청와대에서 열린 수석·보좌관회의에서 "일자리 정책과 소득주도 성장 정책의 성과가 국민 실생활에서 구현되는 데는 시간이 필요할 것"이라며 이같이 밝혔다.]

    * 출처: https://news.v.daum.net/v/20180528175829614

    연속표본 문제는 아닙니다.

    한편, 연속조사 표본수의 변화가 있어서 문제가 야기됐다거나 연속조사된 가구만 분석하니 결과가 다르다고 하며 표본추출에 문제가 있다고 비판하는 분들이 많습니다. 횡단면 분석목적 통계에서는 표본추가․제외 및 가중치 조정을 거쳐 모집단을 대표하도록 하면 이론상 문제가 없습니다. 비표본오차 발생문제는 별개로 하고요. 횡단면 분석 통계는 원래 매번 새로운 표본을 추출하여 작성하고 시계열분석도 하는 것입니다. 예컨대 캐나다 통계청의 가계지출조사는 표본 가구당 2주간만 조사하고 매번 전체표본을 교체합니다. 이렇게 조사한 결과를 연간단위로 집계하여 시계열 분석, CPI 작성 등에 활용하고 있습니다.

    연속 조사한 표본만 이용하여 추정하면 표본편향에 따른 차이가 날 것입니다. 가중치를 조정하여 이러한 문제를 제거할 수도 있겠지만 표본규모 과소에 따른 표본오차 차이 등으로 다른 결과가 산출될 가능성이 클 것입니다.

    참고로 말씀드리자면, 통계청에는 표본의 연구, 통계청 및 외부요구 표본조사의 표본추출, 국가통계 승인․품질평가시 표본검토 등을 전담하는 부서가 따로 있습니다.

    조직확충과 독립성 확보가 필요합니다

    서두에서 언급했지만 최근 논란의 중심에 있는 가구소득 통계 담당자가 사무관 1명(최근까지 0.5명)과 주무관 2명입니다. 이들이 조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행합니다. 조사내용은 가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해합니다. 이외 인구, 경활, 경제 등의 통계업무의 인력사정도 마찬가지입니다.

    수년전 가계금융복지조사 결과 발표지연과 관련하여 이미 퇴사하신 청장님께서 국회에 증인으로 출석하셨습니다. 이러한 사태의 원천적 원인이 개개인보다는 시스템의 문제 때문일 텐데 어떠한 후속조치도 없었습니다. 통계청은 과거와 달리 경제통계뿐만 아니라 인구․사회 등 다양한 분야에 대한 통계도 작성합니다. 전체 국가통계에 대한 거버넌스도 합니다. 아울러 각부처 행정자료를 취합, 관리, 통계작성 목적 활용 및 이용자서비스도 합니다. 이를 제대로 수행하기 위해서는 인력확충과 아울러 독립성 확보 및 위상제고를 위한 조직개편이 절실합니다.

    감사합니다.

    추가) 통계청은 원자료를 충실히 제공하고 있습니다

    통계청이 원자료(마이크로데이터)를 제대로 공유하지 않는다고 비판하는 분도 많으십니다. 통계청은 MDIS를 통하여 무료로 온라인 접속 다운로드도 가능하도록 서비스하고 있습니다. 비밀보호를 위해서 또는 오남용이 우려(예, 패널분석용으로 샘플링하지도 않았고 그래서 패널가중치도 제공하지 통계를 패널분석)되어 다운로드용에서 제외한 변수 포함 원자료는 MDIS의 '이용자센터 서비스'를 통하여 이용할 수 있습니다.

    *MDIS: https://mdis.kostat.go.kr/index.do

  10. 커피한잔 2018.09.11 06:16  댓글주소  수정/삭제  댓글쓰기

    "가계동향조사는 횡단면 조사이지만, 종단면 조사의 성격을 가지고 있음. 2/3 정도의 샘플은 연도별 종단면 변화를 추적할 수 있게끔 설계되어 있음"

    ===>
    1) 변동없는 표본가구 2/3로도 각각 해당년도를 대표한다고 보시는건가요?
    2) 표본설계가 횡단면 분석을 목적으로 추출되었다고 해도 종단면 분석이 가능
    하다고 보시는 건가요? 모든 표본자료가 단순랜덤이면 그럴수동 있겠지만
    그리 간단하게 추출하진 않았을텐데요...
    3)변동이 없는 가구만이 아니라 그냥 둘다 랜덤추출해서 비교해도 되는건지요?

    • 바이커 2018.09.11 08:04  댓글주소  수정/삭제

      http://sovidence.tistory.com/972

      여기 이렇게 친절하게 설명해 두었어요. 좀 읽어 봅시다.

    • 바이커 2018.09.11 10:57  댓글주소  수정/삭제

      제가 확언할수는 없지만, 아마 인구 변동에 따른 샘플 조정 외에 극명한 차이는 없을 것입니다.

      원글에서도 말씀드렸지만 연속표본을 통한 검증이 직접적인게 아니고 간접적인 것이라, 에러가 어디에 있는지는 알 수가 없습니다. 어딘가에 에러가 있다는 것만 아는 거죠.

      여러 가능성이 있지만, 저는 표본설계보다 비표집오차의 가능성이 더 크다고 생각하고 있습니다.

    • 커피한잔 2018.09.11 11:13  댓글주소  수정/삭제

      답변을 이리 빨리 달아주실지 모르고 좀더 생각해보고 싶어서 지웠습니다.
      감사합니다.
      많은걸 배우고 있습니다

  11. 김신호 2018.09.21 05:07  댓글주소  수정/삭제  댓글쓰기

    이미 아시겠지만 연속표본 식별변수 포함 원자료는 MDIS의 "이용자센터 서비스"를 통하여 이용가능할 것입니다.
    이우진 교수님의 연속표본자료 대상 통계추정은 아래 기사에 따르면 그에 걸맞는 가중치를 산출, 이용한 것이 아닌 것 같습니다. 복지통계과에 확인해보니 아래 기사(중간에 있는 추가: 결론 부분)대로 현재 제공되고 있는 가중치로 추정하셨습니다.

    http://egloos.zum.com/iandyou/v/3086370

    통계청은 이러한 오용을 우려하여 일부 변수에 대하여는 "이용자센터 서비스"를 통해서만 이용할 수 있도록 하고 있습니다. 만약 이런 공식적인 경로를 이용하여 그런 분석을 하였다면 외부 반출이 거부되었을 것입니다. 명백한 오류이기 때문입니다. 전문가이신 교수님이 이런 추정을 하여 통계청 공표통계에 문제가 있다고 지적할 정도인데 알아서 잘 이용하겠거니 하며 그냥 모두 오픈할 수 있겠습니까? 다시 한 번 강조하자면 통계청에서는 원자료를 충실히 제공하고 있습니다. 특히, 교수님 포스팅에서 처럼 원자료에 문제가 있어서 공개하지 않는 것 같다는 말씀은 더 이상 하지 말아 주시기 바랍니다.

    말씀하신 대로 연동체계에 의한 탈락인 경우 문제가 작을 수도 있겠지만, 이사(연간 15~20% 정도)나 응답하다 불응 등의 경우 이탈가구가 경향성이 있어서 편향문제가 있기 때문에 이교수님 추정은 잘못된 것입니다. 아울러 표본 축소에 따른 표본오차 확대문제도 있고요. 그런 추정치와 다르다고 통계청 발표자료를 문제삼으면 안 돼죠.

    • ddd 2018.09.21 08:04  댓글주소  수정/삭제

      "말씀하신 대로 연동체계에 의한 탈락인 경우 문제가 작을 수도 있겠지만, 이사(연간 15~20% 정도)나 응답하다 불응 등의 경우"라고 말씀해주셨는데,

      여러 명의 연구자들이 별 어려움을 겪지 않고 데이터를 다운받을 수 있게 되면, 말씀하신 게 단순한 가능성("경우")인지 실제로 그런지 확인을 해볼 수 있잖아요. 여기서 "가능성" 가지고 말싸움 하실 필요가 없어요. 틀린 분석을 지적하려고 눈에 불을 켜고 달려드는 교수들이 얼마나 많은데요.

      연속 표본에 남은 사람들에 selection bias가 있다는 걸 누가 몰라요. 그게 어떤 형태로 나타나고 있는지를 알아야 한다는 게 논지 아닌가요.

      연속표본인지 아닌지 정보를 공개하게 되면 사생활 침해의 우려가 있나요? 그게 더 본질적인 고려 사항 아니었나요?

      김신호 과장님이 말씀하시는 오용가능성이라는 게 개인의 사적인 정보를 손쉽게 식별해내는 의미의 오용이 아니라 통계청 피곤하게 만들 것 같은 오용이라니 좀 당황스럽습니다. 통계청 공식 입장은 아니지만 통계청 분들의 마인드를 알 것 같고,, 동의하지 않으시는 분들이 혹시라도 계시다면.. 좀 말리셔야 하는 것 아닌가 싶고 그러네요.

      애초에 이우진 교수 논지가 연속샘플에서 저소득층 소득이 증가했으므로 소득주도 성장이 성공했다는 것도 아니잖아요. 그런 식으로 했으면 명백한 오류이므로 결과 반출을 금지했을 거라고요? 통계청 과장님이 이런 식으로 말씀하시는데 MDIS 센터에 직접가서 데이터를 받고 싶겠어요?

      저는 이 블로그 주인장 님 글을 읽을 때는 별 생각없었는데, 지금 과장님의 답변 수준을 보고 통계청 수준에 대해서 다시 생각해보게 되는군요.

  12. 김신호 2018.09.21 05:39  댓글주소  수정/삭제  댓글쓰기

    좀 많이 헷갈립니다. 패널 얘기하면서 패널분석이 아닌 횡단추정치 검증에 이용하겠다는 논의만 하고 있는 것 같아서요. 예컨대 연속조사 가구에 패널분석 가중치를 산출 적용하여 "계층이동성" 분석 등에 필요한 통계 추정 같은 거요. 미네소타대에서 어렵게 패널자료 전환하는 것도 이런 분석에 이용하라고 한 것 아닌가요? 횡단통계 작성 또는 이미 공표된 횡단통계 검증 용도가 아니고요.

    아래 제 예전 포스팅 참조>

    가계동향조사는 횡단면 분석목적 조사다.
    소득의 가구간 분포, 분배 분석은 전체 모집단을 대표하는 이러한 횡단면 조사통계를 이용해야 한다.

    한편, 종단면(패널)분석목적 통계가 있다. 이는 동일 표본을 장기간에 걸쳐 추적조사한다.

    그래서 가구, 개인 또는 유사(cohort)그룹이 직면하는 동태적 변화, 특정 상황의 지속기간 등과 이들의 원인 및 결과를 분석할 수 있다.

    예컨대 빈곤을 지속, 탈출, 진입하는 가구의 비율; 생애주기에서 개인이 얼마나 직업을 바꾸고 실업을 경험하며, 그것이 가구소득에 미치는 영향 등의 분석이 가능하다.

    횡단 및 종단면 분석이 동시에 가능하도록 표본설계한 조사도 있다. 가계금융복지조사가 대표적인 사례이다. 여기서는 횡단 및 종단 추정 가중치가 따로 있다.

    • 바이커 2018.09.21 08:26  댓글주소  수정/삭제

      간단한 얘기 아닌가요?

      "패널을 이용해 횡단면 분석 시계열 비교의 타당성을 검증할 수 있다."

      패널을 이용하는 여러 방법 중 하나를 얘기하고 있는 겁니다. 과장님이 말씀하시는 방식으로만 패널을 이용하는게 아닙니다. 제가 쓴 패널 콘디쇼닝 (http://sovidence.tistory.com/970)도 방법론적 논의를 위해 패널을 이용하는 거고요.

      그러니 패널 데이타를 이용할 수 있게 원자료를 공개하고 학자들이 여러가지로 이용할 수 있게 해야죠. 통계청에서 생각하는 방식으로만 써야 한다는건 학문의 발전, 품질 높은 통계청 원자료의 이용이라는 측면에서 커다란 장애물을 설치하는 격입니다.

  13. 김신호 2018.09.21 08:58  댓글주소  수정/삭제  댓글쓰기

    이교수님이 연속조사 가구만으로 기존 통계청 제공 가중치를 이용하여 추정하여 결과가 다르다고 공표통계에 의문을 제기하셨잖아요. 이에 대하여 잘못이라고 저는 얘기하는 거잖아요. 이사에 의한 탈락가구는 차가 비중이 훨씬 높습니다. 그러니 편향문제가 있을 수밖에 없기 때문이죠. 이에 대해서 문제가 없다고 생각하시나요?

    패널이용 타당성 분석은 제가 모르는 분야라서요. 혹시 외국사례 있으면 소개 부탁드립니다. 미네소타대 사례는 그런 용도가 아닌 것으로 알고 있습니다.

    • 바이커 2018.09.21 09:34  댓글주소  수정/삭제

      제가 언론에서 보기로 이우진 교수는 한 번도 통계청의 올해 가계동향조사가 잘못되었다고 얘기한 적이 없습니다. 시계열 비교를 할 수 없다고 했죠. 두 의미는 많이 다릅니다.

      패널을 이용한 조사의 타당성 검증과 관련해 http://sovidence.tistory.com/972 에서 제가 쓴 것 이상으로 어떻게 더 설명드려야 할지는 모르겠습니다.

      패널을 이용한 변화 분석은 수없이 많습니다. 대부분의 분석이 패널에 남을 경우의 selection 효과를 통제하지 않습니다. 왜냐하면 그 효과가 random이라고 가정할 수 있고,대부분의 경우 panel을 이용한 변화 경향과, 전체 cross-sectional의 변화 경향이 같으니까요.

      가계동향조사처럼 패널을 이용했을 때의 분석 결과와 횡단면으로 분석했을 때의 시계열 비교 결과가 다른 경우는 정말 드뭅니다. 이론적으로 있어서는 안되는 케이스입니다.

      두 가지를 구분하셔야 하는데, (1) 연속표본과 전체표본을 횡단면적으로 비교하는 것과, (2) 연속표본과 전체표본을 시계열적으로 비교하는 것은 다릅니다.

      제 느낌은 과장님과 몇몇 분들이 자꾸 (1)에 집착한다는 것입니다. 지금 얘기는 (2)입니다.

      이우진 교수는 연속표본으로 2차 년도의 횡단면적 경향이 전체표본과 상이하게 나오는 것을 문제 삼는게 아닙니다. 변화의 방향에 대한 것입니다. 변화의 방향은 패널조사를 이용할 때 좀 더 확실히 알 수 있습니다. 이 블로그에서 여러 분들이 언급하셨던 unobserved heterogeneity를 통제할 수 있으니까요.

      상식적으로 생각해 보십시오. "소득이 오른 사람만 패널에 남는" 그런 일은 없습니다. 설사 그런 경향이 있어도 약간의 효과만 있는거지, 이 번 이우진 교수의 분석처럼 지배적으로 되는 일은 웬만해서는 절대 벌어지지 않습니다.

      만약 한국에서 실제로 그런 일이 벌어지고 있다면, 이건 패널조사의 기본 전제를 부정하는 일대 사건입니다. 이 경우 노동패널, 건강패널, 청소년패널 등등 모든 패널이 다 잘못된 것입니다. 패널조사를 싹다 없애야 합니다. 패널 요소를 가미한 통계청의 모든 표집 설계도 잘못된 것이 되어버립니다. 이럴 가능성은 0에 수렴할 정도로 낮습니다.

  14. 김신호 2018.09.21 13:11  댓글주소  수정/삭제  댓글쓰기

    시계열 비교를 할 수 없다는 말은 잘못 되었다는 말이죠.

    제가 부족해서 그런지 모르겠습니다만 교수님의 패널관련 말씀은 이해를 못하겠습니다.
    저는 이만 접겠습니다.

    • 바이커 2018.09.21 13:39  댓글주소  수정/삭제

      알겠습니다.

      연속샘플과 전체샘플의 시계열 비교가 어긋나면 뭔가 문제가 있다는 의미고, 따라서 전체샘플 시계열 비교를 믿을 수 없다고 그렇게 여러가지로 설명했는데... 역시 누군가를 설득하는건 어려운 일입니다.

      이 두 샘플의 변화 방향이 달라도 시계열 비교를 할 수 있다고 끝까지 믿으신다면 저도 뭐 더 드릴 말씀은 없습니다. 다만 통계청의 능력에 대해서 좀 회의가 드는건 피할 수 없군요.

    • N 2018.09.21 13:45  댓글주소  수정/삭제

      연구방법론 트레이닝으로 유명한 대학에서 박사받은 교수가 참을성있게 가르쳐주는 것을 이해 못하면서, 이우진 교수가 저렇게 분석할 줄 알았으면 원자료 안줬을 거란 말을 어떻게 할 수 있나요.

      그리고 '시계열 비교를 할 수 없다'는 말이 '올해 가계동향 조사가 잘못되었다'는 말과 어떻게 같습니까. 세가지 가능성이 있다고 이전 포스팅에 나와 있잖아요. http://sovidence.tistory.com/971

  15. 김신호 2018.09.21 14:15  댓글주소  수정/삭제  댓글쓰기

    이사가서 탈락하는 가구가 연간 15~20% 정도입니다. 이들 가구는 모집단 대비 상대적으로 차가가구가 많습니다. 다른 말로 하자면 연속가구는 모집단 대비 자가가구 비율이 높습니다. 그래서 연속가구만 가지고 추정하면 모집단을 대표하는 전체가구 추정결과와 다를 수밖에 없겠죠. 시계열 흐름까지 반대일 경우도 발생할 수 있고요.

    이교수님이 이런 것을 고려한 가중치 조정 등을 하지 않고 연속가구만 가지고 추정한 결과는 모집단을 반영하지 못한 것이기에 잘못된 것이라는 말입니다. 이런 결과로 공표된 통계를 검증하려 했으니 논란이 야기된 것이고요.

    • 바이커 2018.09.21 14:23  댓글주소  수정/삭제

      이 주장은 당장 이우진 교수가 2016-2017 연속샘플로 분석한 결과로 논박되잖아요. 그 때는 2017-2018과 반대로 나왔잖아요.

      2017년 탈락 패널이 독특할 가능성에 대해서도 이미 여러차례 얘기했습니다. 아무리 설명해도 안듣고 안읽고 도돌이 질문을 하면 어쩝니까.

  16. 김신호 2018.09.21 14:20  댓글주소  수정/삭제  댓글쓰기

    횡단면 통계도 시계열 분석하기 위한 것입니다. 예컨대 작년에는 우리나라 전체가구의 분위별 소득분포가 이랬는데 올해는 이렇게 바뀌었다. 이런 시계열 비교를 할 수 없다면 통계가 잘 못된 거죠.

  17. 김신호 2018.09.21 14:48  댓글주소  수정/삭제  댓글쓰기

    그러니까요. 저도 답답하네요.
    이교수님이 통계청 공표통계가 시계열 비교할 수 없는 거라고 말했으면, 그말은 곧 통계가 문제가 있다는 거잖아요.

    횡단면 통계도 시계열 분석하기 위한 것인데 그게 곤란하다면 잘못된 통계라는 거잖습니까.

    • 바이커 2018.09.21 15:04  댓글주소  수정/삭제

      http://sovidence.tistory.com/973

      문제(에러)가 있어도 문제가 일정하기만 하면 변화 경향 파악은 할 수 있다고요. 하지만 2018년에는 여러 개편이 있어서 문제(에러)가 일정하지 않을 가능성이 있고, 그래서 연속표본으로 검증했더니 실제로 일정하지 않아서, 시계열 변화 경향 파악이 안된다고요. 다 얘기한겁니다.

      과장님 질문은 랜덤 샘플이면 무조건 결과가 같이 나와야 한다는 식입니다. 통계 맨처음 배우는 학부 1학년들이 질문하면 좋은 질문이라고 칭찬해줄 수준이에요.

      실험실 상황이 아닌 이상 랜덤샘플이라도 뭔가 예상치 못한 요인이 개입하고, 그에 따라 방법론을 바꾸면 뭔가 결과가 바뀝니다. 이거 조사 해본 사람들은 다 아는 상식 아닌가요?

      정치 조사에서는 하우스 효과(house effect)라고 조사 기관에 따라 진보, 보수 후보의 선호 편향이 나타나기도 합니다. 일부러 편향을 담아서 질문하기 때문이 아니라 그 조사회사의 방법론이나 어떤 태도가 이상하게 지속되는 편향적 결과를 낳는거죠. 그런데 같은 설문으로 조사회사를 바꿔서 시계열비교를 하면 그게 하우스 효과인지, 실제 지지율 변화인지 어떻게 압니까? 그런 비교는 하지 말아야죠.

  18. 김신호 2018.09.21 14:55  댓글주소  수정/삭제  댓글쓰기

    말씀하신 대로 독특할 가능성 있는, 아니 실제 있는 연속샘플만 가지고 이교수님 처럼 추정하면 모집단을 반영하지 못한다.라는 제 말에는 동의하시나요?

    교수님에게 이런 질문드려서 죄송합니다만 이교수님 추정결과로 검증가능하다고 말씀하시니 답답해서요.

    16-17과 17-18년 결과가 반대가 나올 수도 있죠. 그것이 이교수님이 주장하시는 표본추출의 문제 때문일 수도 있고요. 저는 그런 문제를 편향문제가 있는 이교수님 추정결과를 이용해서 검증하는 것에 대하여 부적절하다고 말씀드리는 것입니다.

    편향문제를 해소하기 위한 가중치조정 등을 하여 추정한 결과를 이용하여 검증을 시도했다면 설득력이 있었겠죠.

    • 바이커 2018.09.21 15:12  댓글주소  수정/삭제

      모집단을 반영할 수도 있고, 못할 수도 있어요.

      통계를 모르는 사람들이 맨날 전화조사 응답률이 8~9% 밖에 안된다는 걸로 뭐라고 합니다. 그런데도 전화조사 샘플이 대부분의 경우 모집단을 반영합니다. 비응답이 조사하고자 하는 내용과 uncorrelated되어 있기만하면 되니까요.

      최악의 경우를 가정해서, 연속샘플은 항상 이상한 집단이라고 해보세요. 그럼 연속샘플의 비율이 확 줄어든 올해 샘플과, 그 전에 연속샘플이 그렇게 줄어들지 않은 샘플을 같이 비교할 수 있다고 생각하세요?

      http://sovidence.tistory.com/970 여기서 다 설명했잖아요.

    • 바이커 2018.09.21 15:18  댓글주소  수정/삭제

      추가한 마지막 문단은 말이 안되는 소리죠.

      연속샘플은 이사라는 일정한 요인에 의해서 영향을 받는데, 이 일정한 요인에 대한 응답 효과가 매년 바뀐다고요? 그럼 샘플의 연속 여부에 영향을 끼치는 변수가 응답과 아무런 관련이 없다는 얘기가 되는거 모르세요.

  19. 김신호 2018.09.21 15:33  댓글주소  수정/삭제  댓글쓰기

    전화조사는 잘 아시겠지만 무응답가중치 조정을 해서 모집단을 반영하도록 합니다. 그렇게 하지 않으면 이교수님 경우처럼 편향에 기인한 잘못된 결과가 나올 수밖에 없겠죠.

    말씀하신 대로 샘플링에 문제가 있을 수도 있겠죠. 하지만 그런 검증을 문제가 있는 추정결과로 하면 설득력이 떨어진다는 것입니다.

  20. 김신호 2018.09.21 15:40  댓글주소  수정/삭제  댓글쓰기

    다시 원론적 얘기로 돌아가는 것 같은데요, 연속샘플이 많건 적건 전체샘플이 최종적으로 가중치조정까지 거쳐서 모집단을 대표하면 횡단면 추정하는데, 나아가 시계열 비교하는데 아무 문제가 되지 않습니다.

    • 바이커 2018.09.21 16:47  댓글주소  수정/삭제

      전문가란 원론을 되뇌이는게 아니라 원론적 얘기가 성립하는 복잡한 조건을 따질 수 있어야 합니다.

      어쩌겠습니까. 모두가 그럴 수 있는건 아니니까요.

  21. 김신호 2018.09.21 21:57  댓글주소  수정/삭제  댓글쓰기

    아직도 제가 이해 못하는 부분이 있지만 제 역량부족 때문인 것으로 알고 퇴장하겠습니다. 하지만 저는 결정권 없는 일개 하급부서 과장이고 통계청에는 저보다 유능한 사람들이 많으니 포기하지 마시고 계속 지도편달 해주시면 원하시는 변화가 이루어질 것입니다.

    저는 "분기별 소득분배 분석 위한 조사 실익도 없고 발표할 때마다 불필요/무의미한 논쟁거리만 될 가능성이 많고, 무엇보다 비효율적이다. 소득분배 분기별로 파악하는 나라, 소득을 가계부기입 방법으로 조사하는 나라는 유례가 없다"고 떠들어 대고 있습니다. 페북에도 사내 게시판에도 올리고 윗선에도 얘기하고 언론에도 인용되고 있습니다.

    https://www.facebook.com/100001155405571/posts/1856139404434555/

    그럼에도 내년부터 그런 조사가 결국 도입됩니다. 저는 목구멍이 포도청이라 제 관련 소임(지방 충원 조사인력/예산 배정 등등)을 수행할 것이고요. 이와 같이 저는 아무런 결정권이 없으니까 제가 무능하다고 그래서 통계청 발전 기대난망이라고 포기하지 마세요.

    다시 말씀 드리자면 저는 퇴장합니다. 추석이후 위와 같은 일 준비하느냐고 바빠서 오고파도 못 올 것입니다.

    그동안 감사했습니다.

    • 바이커 2018.09.22 08:55  댓글주소  수정/삭제

      알겠습니다.

      덕분에 이우진 교수의 가중치 부여 여부도 알게되고, 여러 이슈를 풍부하게 논의할 수 있었습니다.

      이 번 논란과 차원이 다른 이슈이기는 하나, 분기별 소득분배 분석이 별로 유익하지 않다는 것에는 저도 동의합니다. 논란이 된 김에 없애버리고, 그 예산으로 미니 센서스를 도입했으면 더 좋았을 것으로 생각합니다.

      풍성한 한가위 되십시오.