최영섭 선생 페이스북 포스팅 


제 글에 대한 반박이라고 여러 분들이 링크도 걸어주고 메시지도 보내준 글임. 이 글에 대한 반박은 아래 패널 콘디셔닝에 대한 포스팅에서 다루었음. 이미 반박했는데도 계속해서 언급되고 질문이 들어오는 상황. 패널 콘디셔닝 포스팅도 나름 쉽게 썼다고 생각하지만 통계에 대한 상당한 지식이 있는 분들이 아니면 무슨 말인지 이해하기 어려웠을 것으로 판단됨. 그래서 제 능력이 닿는한 쉽게 왜 위에 링크한 글의 내용이 핀트가 어긋난 것인지 설명하고자 함. 쉽게 설명하려다 보니 이 글도 다소간의 스압이 있음. 





처음 글에서 이미 말했고 답글에서도 여러 번 반복했지만, 여기서 다시 환기시키면, 가계동향조사는 <횡단면 조사 + 종단면 조사>로 횡단면적 분석을 하는 특징을 가지고 있음. 


가계동향조사를 이해할 때 

1) 횡단면 조사를 목적으로 했다는 것과

2) 그런데 <횡단면 조사 + 종단면 조사>로 설계했다는 것, 

두 가지를 모두 이해해야 함. 통계청의 김신호 과장, 최영섭 선생 등 제 글을 비판한 거의 모든 분들이 1)에 대해서만 얘기하지 2)에 대해서 말하지 않고 있음.  


예를 들어 최영섭 선생은 다음과 같이 썼음: "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'에 대해서는 통계청 김신호 과장이 여러가지로 설명하고 있는데, 그걸 이해 못함. … 글쓴이(저)는 횡단면 조사의 표본 설계가 대체 어떻게 이뤄지는지 부터 다시 이해해야 함"이라고 저를 비판하고 있음. 


최영섭 선생의 비판과 달리 "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'" 전혀 없음. 패널 분석으로 가계동향조사를 비판하는 사람들이 이런 오해를 하고 있다고 생각하는 것 자체가, 가계동향조사 설계에 대한 이해의 부족을 드러냄. 


김영원 교수는 가계동향조사에 종단면적 성격을 추가한 것의 장점에 대해 간단히 언급하지만, 저와 경제학자들이 가계동향조사를 종단면 조사로 이해하고 있다는 식으로 잘못 비판하고 있음. 


가계동향조사의 패널부분을 따로 떼어내서 분석하는 사람들이 가계동향조사의 횡단면적 성격을 몰라서, 내지는 전체 표본의 모집단 대표성이 확보되면 시계열 비교에 무리가 없다는걸 몰라서 그러는게 아님. <횡단면 조사 + 종단면 조사>의 특성을 살려서 올해 표본에 문제가 있다고 제기된 부분을 검증하고자 하는 것. 최영섭 선생은 "표본의 연속성을 따지지 말고, 각 시점에서 조사가 제대로 되었는지를 따져야 함… 그 외의 논란은 초점을 벗어난 것임"이라고 자신있게 주장하는데, 그거 아님. 


이 글에서는 왜 횡단면 조사인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 설계했는지 설명하고자 함. 저를 비판하는 사람들은 그 이유를 모르는건지, 알면서도 무시하는 건지, 이런 설계의 장담점에 대해 전혀(내지는 거의) 언급하지 않음. 






그럼 최영섭 선생의 설명으로부터 시작해 보겠음. 


최영섭 선생은 예를 들면서, 100명이 전체 표본수인데 50명이 고소득층이고 50명이 저소득층일 때, 고소득층 50명은 유지되고, 50명 저소득층은 대체되면, 새로 대체되는 샘플이 50명 저소득층으로 들어와서 결국 전체 표본 100명이 저소득층과 고소득층을 포괄하냐가 문제지, 연속샘플과 신규샘플의 격차는 이슈가 아니라고 설명함. 연속 샘플만 보면 고소득층이고, 신규 샘플만 보면 저소득층이라 마치 두 샘플의 결과가 매우 다른데, 연속 표본과 신규 표본을 비교하는 건 엉터리라는 것. 무척 상식적인 주장처럼 들림. 


하지만 이런 설명은 도대체 왜 횡단면 비교 목적인 가계동향조사에 <횡단면 조사 + 종단면 조사>로 샘플링하는 설계를 도입했는지 이해하지 못하기 때문에 하는 용감한 주장임. 아마 극단적인 사례를 예로 든 것이겠지만, 이런 극단적인 사례를 피하라는게 바로 <횡단면 조사 + 종단면 조사>로 샘플링하는 이유임. 극단적 사례로 이 표집법을 설명하는게 바로 이 표집법에 대한 이해의 부족을 노출함. 자신있게 말하는데 만약 통계청에서 최영섭 선생이 예를 든 식으로 지역이든, 계층이든, 연령이든, 다른 어떤 다른 특성이든 가계동향조사의 연속 표본과 대체 표본의 차이가 극명하게 차이나게 설계했다면, 담당자는 업무 과실 내지는 무능으로 징계를 먹어 마땅함.  


횡단면 조사보다 종단면 조사가 돈도 많이 들고 어려움. 그럼에도 불구하고 <횡단면 조사 + 종단면 조사>로 가계동향조사 설계를 하는 이유는 이렇게 하면 시계열 비교의 안정성이 크게 높아지기 때문. 





그럼 왜 <횡단면 조사 + 종단면 조사>가 시계열 비교의 안정성을 높이는가? 


샘플 조사는 항상 여러가지 에러를 동반함. 최대한 랜덤 샘플링을 해도 순수 확률적 샘플링 에러가 있을 수 있음.  좀 더 심각하게는 어떤 이유에선가 샘플링이 랜덤이 아니고 편향될 수도 있음. 조사 방법을 바꾸면 랜덤 샘플이라도 비표집 에러 때문에 결과가 달라질 수 있음. 횡단면 조사에 종단면 성격을 삽입하면 랜덤 샘플 에러를 줄일 수 있고, 설사 일부 연도 표집에 편향이 있더라도 편향의 효과를 분산시킬 수 있음. 그래서 overtime comparison이 안정됨. (비표집 오차는 뒤에 간단히 얘기하기로 함. 이건 또 다른 이슈가 있음)


통계 101에서 배우듯 샘플링에 특정 편향을 배제하는 최선의 방법은 랜덤 샘플링임. 가계동향조사처럼 시계열적 비교를 목표로 할 경우 매년 무작위 표집을 해야 함. 만약 3년마다 1/3씩 샘플을 교체하면 각 연도별 1/3의 샘플이 아무런 작위 없는 랜덤이 되도록 설계해야 한다는 것. 이렇게 하면 설사 특정 해에 일반적으로 기대하는 범위를 벗어난 확률적 표집오차 내지는 편향이 있다 할지라도, 매년 1/3씩 랜덤하게 샘플을 교체하면, 표집의 bias 뿐만 아니라 표집오차도 헤징이 됨. 투자에 대한 격언으로 모든 계란을 한 바구니에 담지 말라는 말과 비슷한 것. 표본과 관련된 오차를 분산시킴으로써 시계열 비교의 안정성이 높아짐. 


이렇게 하지 않는 잘못된 예를 들자면 다음과 같음. 첫 해는 고소득층, 두번째 해는 중산층, 세번째 해는 저소득층을 교체하면, 첫해 고소득층을 추출할 때 생겼던 어떤 에러의 특성이 3년간 지속되고, 그 다음 3년은 중산층, 다음 3년은 저소득층의 에러의 특성이 지속됨. 매 년 1/3의 샘플을 랜덤하게 교체하는 것에 비해 소득 구간별 소득 측정의 3년 단위 에러 가능성을 높임. 이렇게 되면 교체 차에 나타난 소득 계층의 변화가 샘플 교체로 인한 것인지, 실제 변화를 반영하는 것인지 구분하기 어렵게 됨. 예를 들어 2015년 저소득층 샘플에 무슨 이유에선거 체계적 편향이 있었는데, 2018년 대체 샘플에서는 이 체계적 편향을 제거하고 제대로 샘플링을 했다면, 2017년과 2018년을 비교할 때 저소득층의 소득증감이 2015년에 잘못했던 체계적 편향 때문인지, 2017년과 2018년의 실체적 변화 때문인지 알 수 없게 됨. 


물론 샘플 추출에 에러가 전혀 없다면 이런 문제는 발생하지 않음. 하지만 에러가 전혀 없다는 보장이 없기에 가계동향조사처럼 횡단면+종단면으로 매년 1/3씩 샘플을 교체하는 것으로 설계해 에러 가능성과 정도를 줄이는 것.  


이 때문에 매년 1/3씩 샘플을 교체하고, 한 번 샘플에 들어오면 3년 유지를 목표로 하는 가계동향조사에서 각 1/3 샘플은 최대한 랜덤으로 유사한 특징을 가지게끔 설계해야만 함. 가계동향조사가 실제로 그렇게 설계했는지는 모르겠음. 하지만 통계 생산 전문가인 통계청이니 당연히 그렇게 했을 것으로 믿고 있음. 물론 매년 추계인구가 바뀌므로 신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함. (3년 유지 패널인데 탈락하기 때문에 추가하는 샘플도 있는게 논의의 편의를 위해 일단 그 이슈는 제외함). 


(여기서 잠깐. 통계를 아는 사람들도 가끔 잘못 이해하는 경우가 있는데 인구 통계에 대한 사전 정보가 있으면 이에 맞춰서 샘플을 조정할 수 있음. 이렇게 하면 오차가 줄어듦. 앞에서 완전 랜덤으로 샘플링해야 한다고 말한거 보고, 통계청에서는 인구에 대한 사전 정보 이용한다고 제가 뭔가 잘못안다는 식으로 뜬금포 날리기 없기.)





만약 아이디얼한 상황을 가정해서, 표집의 순수 확률적 랜덤 에러가 예외적으로 크지 않고, 편향이 없어서, 연속 표본과 대체 표본을 합친 전체 표본이 모집단을 잘 대표한다면 최영섭 선생의 주장처럼 연도별 표본 대체를 어떻게 하였든 전체 표본으로 시계열적 비교를 하는데 큰 문제가 없음. 아이디얼한 경우에는 횡단면 비교 목적인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 시행할 이유도 줆어듦. 


물론 이 경우에도 표집의 순수 확률적 랜덤 에러가 일반적 허용 범위를 벗어날, 매우 낮지만 그래도 0으로 만들 수 없는 "확률"은 항상 존재함. 누구나 복권을 사서 횡재할 확률이 있는 것과 마찬가지임. 그래서 통계 해석은 늘 확률로 해야함, 진리에 대한 확정이 아니고.  


다른 한 편 연속표본이나 대체표본이나 전체 모집단을 잘 대표하고, 시계열적 변화를 잘 반영한다면 가계동향조사의 패널 표본을 종단면적으로 분석해도 아무런 문제가 없음. 노말한 상황에서 전체 저소득층의 소득이 줄었는데, 연속표본으로 남은 집단만 소득이 오르는 일은 없음. 그러니까 연속표본과 대체표본에 아무런 바이어스가 없는 상황을 가정하고 주장하는 최영섭 선생의 주장은 가계동향조사를 패널로 분석해도 횡단면으로 분석할 때와 변화 방향이 일치할 것으로 예견할 때도 필요한 가정(=조건)임. 


그런데 표본자료에서 이 가정이 실제로 성립하는지, 아니면 뭔가 이 가정과 다른 에러가 있는건지 어떻게 앎? 불행히도 이 가정에 대한 직접적 검증은 불가능함. 통계 이론적으로 가정하는 것. 하지만 간접적 검증의 방법이 있음. 바로 전체 표본과 연속 표본의 결과에 상당한 차이가 나면 이 가정에 문제가 생겼다는 신호임. 바로 여기서 가계동향조사의 종단면 연속 샘플을 따로 떼어내서 혹시 에러는 없는건지 검증해볼 가능성이 생기는 것.  


정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. 






통계청에서 하는 어떤 조사도 일부러 편향된 표집을 하지는 않음. 최선을 다해 랜덤 샘플링을 하지만 그럼에도 불구하고 조사 방법이 바뀌면 뭔가 변화가 생기는 것. 표집오차일 수도 있고, 비표집오차일 수도 있음. 비표집오차의 예로  5,500개 샘플을 8,000개 샘플로 늘리면서 조사 품질 관리에 문제가 생길 수도 있음. 샘플수가 늘어나면 표집오차는 줄어들지만, 관리비용도 늘어나기 때문에 비표집오차는 증가함. 


가계동향조사는 작년과 올해 우여곡절을 겪었고, 표본 구성이 달라짐. 가구 추계도 2010년 베이스에서 2015년 베이스로 바뀌면서 변화의 정도도 커짐. 이렇게 변화가 있을 때 가계동향조사의 <횡단면 조사 + 종단면 조사> 설계는 변화된 표집으로 시계열적 비교의 안정성이 확보되는지 확인할 수 있는 중요한 수단을 제공함. 


위에서 설명했듯 표본 변화가 전체 추세에 영향을 끼치지 않았다면, 전체 표본의 시계열 변화와 연속 표본의 시계열 변화가 질적으로 동일한 결과가 나와야 함. 


그런데 이우진 교수가 검증해보니 연속 표본의 결과가 전체 표본과 상당히 다르게 나온 것. 그래서 내릴 수 있는 결론은 연속 표본의 결과가 맞다가 아니라, 전체 표본을 이용한 시계열 비교를 신뢰할 수 없다는 것임. 아래 그래프에서 보듯 평균값도 이상하게 튐. 


그러니 횡단면 조사의 표본 설계를 어떻게 하는지 모르고 연속 표본의 사이즈로 가계동향조사의 시계열 비교가 가능한 것으로 제가 오해하고 있다는 최영섭 선생의 비판은, 최영섭 선생이 <횡단면 조사 + 종단면 조사>이루어진 횡단면 조사 표본 설계의 원리를 잘 모르고 한 비판일 가능성이 농후함. 





Ps. 참고로 아래 올린 패널 콘디셔닝은 연속 표본과 전체 표본에 차이가 날 수 있는 한가지 잠재적 메카니즘에 대한 글임. 지금 쓴 이 포스팅 내용을 배경 지식으로 가지고 있어야 제대로 이해할 수 있는 얘기임. 


Pps. 최영섭 선생의 비판 중 첫번째 포인트인 면접식 도입이 2017년이라는 지적은 옳음. 다만 이 방식과 샘플 확대가 결합할 때 어떤 비표집오차를 일으킬지는 또 하나의 체크포인트. 


이런 가능성이 있음. 원래 기장식이던 가계동향조사에 2017년부터 면접식을 도입. 그런데 면접식은 기장식보다 면접원 통제라는 새로운 요소가 가미됨. 면접원에 따라 결과가 바뀌는 비표집오차의 가능성이 추가됨. 면접원의 품질 통제는 상당한 관리 비용이 들어감. 


그런데 2018년에 2017년에 비해 가계동향조사의 표본수가 크게 증가함. 이에 따라 면접원의 품질에 따른 비표집오차의 개입 개연성도 크게 증가됨. 즉, 비록 면접식의 도입은 2017년이지만, 이러한 면접 방식의 변화가 조사 결과에 더 크게 영향을 끼칠 가능성은 2018년일 수도 있다는 것 (꼭 그렇다는건 아님. 통계청에서 응답 방식에 대한 원자료를 제공하면 이것도 체크해볼 수 있음).  


그러니까 타당한 지적인 최영섭 선생의 첫번째 포인트도 2018년의 표본수 확대라는 문제까지 고려해서 좀 더 깊이 들어가면 그렇게 단순하게 조사방식 변경 효과는 무조건 2017년에 나타나야 한다고 주장할 수 있는게 아님. 

Posted by 바이커 sovidence