제 질문에 대한 통계청 김신호 과장님 답글

김신호 과장님의 원래 페이스북 포스팅


이 글을 김신호 과장님에게 답장으로 쓸까 하다가, 그렇게 하지 않기로 했음. 답글이라고 달았지만 제 질문에 대한 답도 아니라, 별 의미도 없을 것 같고.  


사실 페친의 링크 덕분에 김신호 과장님의 글은 지난 주말에 읽어보았음. 패널 콘디셔닝 글을 안 읽어본건가? 설마 가계동향조사의 <횡단면 + 종단면> 성격에 대한 장문의 글도 올렸는데, 왜 이런 말씀을 하시지? 제발 좀 남의 글을 읽고 쓰시라고 여러번 말씀드렸는데, 설마 페이스북에 올린 이 글을 제 글에 대한 답으로 달지는 않겠지라고 생각하면서도... 뭔가 찜찜한 구석이 있었음. 페이스북의 그 글에 저에 대한 답글인 듯한, 그런 뒷목 땡기는 답답함.  





조직에서 터줏대감들이 임기제 굴러온 돌을 무력화 시키고 조직의 관행을 지킬 때 쓰는 흔한 방법이 있음. 하나는 의전으로 행사 뺑뺑이 돌리는 것. 이렇게 하면 업무 파악 못하고, 업무 지시도 못하고, 밖에서 의전만 받다가 임기 끝남. 다른 하나는 동문서답으로 굴러온 돌의 얘기가 쇠귀에 경읽기가 되게 만드는 것. 아무리 논리적으로 말해도 웃는 낯으로 예의를 갖춰서 딴소리하면 얘기하는 사람이 지쳐 나가떨어짐. 


상대방의 질문에 대답 안하고 자기가 하고 싶은 말 반복하는 것은, 미국 대통령 선거토론회 등 정치인 토론을 보면 늘상 쓰는 방법임. 토론이 목적이 아니라 언론플레이가 목적이면 흔히 쓰는 방법. 정치인들이 바보임? 질문에 대답도 못하게. 다 깊은 뜻이 있는 거임. 마찬가지로 중앙부처 과장이면 실무 관리의 정점인데, 이 분들이 바보임? 자기 영역에 대한 질문을 이해 못하게. 다 자기 조직에 맞는 생리가 있는거임.  






우야튼 김신호 과장의 글은 제 질문에 대한 답은 아니지만, 몇 가지 점에서 생각할 거리가 있음 (참고로 원래 제 질문은 요기에 쓴 제 글의 마지막에 있음). 


김신호 과장의 글은 소제목을 다는 등 논리적으로 글이 작성되어 내용이 쉽게 전달됨. 잘 쓰셨음. 포인트는 세가지임. 


첫번째는 가계동향조사의 분기 조사가 가지는 문제점.

두번째는 연속 표본 문제는 아니라는 것. 

세번째는 통계청 조직 확대가 필요하다는 것. 




우선 첫번째 포인트를 지적하며 쓴 분기 조사의 문제점은 다 동의함. 그런데 그게 이 번 2017-2018년 비교에 여러가지 튀는 통계가 나오는 이유임?


중학교 때 배우는 algebra에 이런게 있음. 

 (X1 + e) - (X2 + e) = (X1 - X2) 


여기서 X1과 X2를 각각 2017년과 2018년의 가계동향의 진실이고 e가 분기별 조사를 하기 때문에 생기는 에러라고 가정해 보삼. 2017년 조사 결과인 (X1 + e)도 잘못된 것이고, 2018년 조사 결과인 (X2 + e) 도 잘못된 것이지만, 두 시기 결과의 격차는 에러가 에러를 상쇄해, 격차 자체는 실제 변화를 반영함. 


즉, 가계동향조사를 분기별로 하는 것은 문제지만, 지금까지 계속해서 그렇게 해왔기 때문에 올해 특별히 분기별 조사 때문에 시계열 비교를 못하는 것은 아니라는 것. 분기별 조사의 에러를 또 다른 분기별 조사의 에러로 상쇄해서 시계열 비교가 가능한 구조. 


따라서 첫번째 포인트는 다른 측면에서 필요한 논의긴 하지만, 시계열 비교의 적절성을 논의하는데 필요없는 물타기임. 





두번째로 연속 표본 문제가 아니라고 엉뚱한 말씀을 하는데, 아래 장문의 글에서 했던 말을 반복함.  


... 정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. ...






세번째가 사실 김신호 과장님 글의 백미. 가계동향조사를 다루는 공무원이 5급 서기관 1명, 주무관2명으로 3명인데, 이들이 "조사의 기획 및 관리, 개선, 조사결과 취합, 에디팅, 추정, 분석, 보도자료 작성, 이용자서비스 등의 업무를 수행"하고, 조사내용도 "가구의 인구학적 특성, 산업․직업, 각종 원천별 소득, 공적이전, 연금, 보험과 제세공과금을 포함한 각종 비소비지출 등 다양하고 난해"하다는 것. 따라서 조직확충이 필요하고, 이렇게 확충된 조직이 다른 간섭을 받지 않고 독립적으로 일할 수 있게 해줘야 한다는 것. 


가계동향조사 예산이 올해 28억이고, 내년에는 확대 개편을 위해 160억을 편성했다고 함. 국민 예산으로 28억짜리 조사를 했는데, 이 조사를 분석해서 공표하는 사람은 달랑 3명임. 정말 일당백의 용사들임. 공무원의 헌신이 느껴지심? 아무리 일당백의 용사라도, 이렇게 사람이 모자라면 모든 것을 카버할 수 없음. 중과부적. 


그런데 이거 좀 이상하지 않음?


이렇게 분석 인력이 보자랄 경우 28억짜리 조사를 활용하는 최선의 방법은 조사 원자료를 공개하고 여러 학자로 하여금 알아서 분석하게 함으로써 새로운 발견 사항은 없는지, 조사에 다른 문제는 없는지 알아내도록 하는 것. 사람이 적을수록 외부에 공개해서 분석을 풍부하게 해야 함. 


그런데 달랑 3명이 분석해 놓고, 통계청은 조사의 오남용을 우려해서 원자료 중 일부만 일반 공개함. 달랑 3명이서 전체 학계에서 어떤 변수는 오용하고 어떤 변수는 남용할지 판단해서 통제함. 


세상에 조사원자료를 공개하지 않으면서 프라이버시 보호도 아니고 학계의 오남용을 염려하는 논리는 또 처음 들어봄. 눈가리고 아웅이었지만 그래도 지금까지 그렇게는 얘기하지 않았음.


MDIS 이용자 센터에 가면 일반 공개하지 않는 데이타도 볼 수 있다는데, 여기가 걍 아무나 가서 앉아서 분석하는 곳이 아님. 신청하고, 허가받고, 보안검색 받아서 하는 곳임. 지금은 어떤지 모르겠지만 예전에는 설치된 통계 프로그램도 매우 제한적이었음.  


프라이버시 보호를 위해서 이런 장치가 필요하다는 것은 백퍼 동의함. 그런데 가중치 부여 등 오남용을 막기 위해서 MDIS 이용자 센터를 거치라고? 누가 들으면 MDIS 이용자 센터에서 어떤 분석을 어떻게 해야 하는지 친절하게 안내해주는줄 알겠음. 


세번째 포인트는 전형적인 조직보호의 논리임. 




그래서 모두가 알아야 할 오늘의 교훈: 

약은 약사에게, 처방은 의사에게, 데이타 오남용 판단은 통계청 공무원에게. 

Posted by 바이커 sovidence