최영섭 선생 페이스북 포스팅 


제 글에 대한 반박이라고 여러 분들이 링크도 걸어주고 메시지도 보내준 글임. 이 글에 대한 반박은 아래 패널 콘디셔닝에 대한 포스팅에서 다루었음. 이미 반박했는데도 계속해서 언급되고 질문이 들어오는 상황. 패널 콘디셔닝 포스팅도 나름 쉽게 썼다고 생각하지만 통계에 대한 상당한 지식이 있는 분들이 아니면 무슨 말인지 이해하기 어려웠을 것으로 판단됨. 그래서 제 능력이 닿는한 쉽게 왜 위에 링크한 글의 내용이 핀트가 어긋난 것인지 설명하고자 함. 쉽게 설명하려다 보니 이 글도 다소간의 스압이 있음. 





처음 글에서 이미 말했고 답글에서도 여러 번 반복했지만, 여기서 다시 환기시키면, 가계동향조사는 <횡단면 조사 + 종단면 조사>로 횡단면적 분석을 하는 특징을 가지고 있음. 


가계동향조사를 이해할 때 

1) 횡단면 조사를 목적으로 했다는 것과

2) 그런데 <횡단면 조사 + 종단면 조사>로 설계했다는 것, 

두 가지를 모두 이해해야 함. 통계청의 김신호 과장, 최영섭 선생 등 제 글을 비판한 거의 모든 분들이 1)에 대해서만 얘기하지 2)에 대해서 말하지 않고 있음.  


예를 들어 최영섭 선생은 다음과 같이 썼음: "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'에 대해서는 통계청 김신호 과장이 여러가지로 설명하고 있는데, 그걸 이해 못함. … 글쓴이(저)는 횡단면 조사의 표본 설계가 대체 어떻게 이뤄지는지 부터 다시 이해해야 함"이라고 저를 비판하고 있음. 


최영섭 선생의 비판과 달리 "횡단면 조사의 비교 가능성이 표본의 유지로부터 나온다라는 '일반화된 오해'" 전혀 없음. 패널 분석으로 가계동향조사를 비판하는 사람들이 이런 오해를 하고 있다고 생각하는 것 자체가, 가계동향조사 설계에 대한 이해의 부족을 드러냄. 


김영원 교수는 가계동향조사에 종단면적 성격을 추가한 것의 장점에 대해 간단히 언급하지만, 저와 경제학자들이 가계동향조사를 종단면 조사로 이해하고 있다는 식으로 잘못 비판하고 있음. 


가계동향조사의 패널부분을 따로 떼어내서 분석하는 사람들이 가계동향조사의 횡단면적 성격을 몰라서, 내지는 전체 표본의 모집단 대표성이 확보되면 시계열 비교에 무리가 없다는걸 몰라서 그러는게 아님. <횡단면 조사 + 종단면 조사>의 특성을 살려서 올해 표본에 문제가 있다고 제기된 부분을 검증하고자 하는 것. 최영섭 선생은 "표본의 연속성을 따지지 말고, 각 시점에서 조사가 제대로 되었는지를 따져야 함… 그 외의 논란은 초점을 벗어난 것임"이라고 자신있게 주장하는데, 그거 아님. 


이 글에서는 왜 횡단면 조사인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 설계했는지 설명하고자 함. 저를 비판하는 사람들은 그 이유를 모르는건지, 알면서도 무시하는 건지, 이런 설계의 장담점에 대해 전혀(내지는 거의) 언급하지 않음. 






그럼 최영섭 선생의 설명으로부터 시작해 보겠음. 


최영섭 선생은 예를 들면서, 100명이 전체 표본수인데 50명이 고소득층이고 50명이 저소득층일 때, 고소득층 50명은 유지되고, 50명 저소득층은 대체되면, 새로 대체되는 샘플이 50명 저소득층으로 들어와서 결국 전체 표본 100명이 저소득층과 고소득층을 포괄하냐가 문제지, 연속샘플과 신규샘플의 격차는 이슈가 아니라고 설명함. 연속 샘플만 보면 고소득층이고, 신규 샘플만 보면 저소득층이라 마치 두 샘플의 결과가 매우 다른데, 연속 표본과 신규 표본을 비교하는 건 엉터리라는 것. 무척 상식적인 주장처럼 들림. 


하지만 이런 설명은 도대체 왜 횡단면 비교 목적인 가계동향조사에 <횡단면 조사 + 종단면 조사>로 샘플링하는 설계를 도입했는지 이해하지 못하기 때문에 하는 용감한 주장임. 아마 극단적인 사례를 예로 든 것이겠지만, 이런 극단적인 사례를 피하라는게 바로 <횡단면 조사 + 종단면 조사>로 샘플링하는 이유임. 극단적 사례로 이 표집법을 설명하는게 바로 이 표집법에 대한 이해의 부족을 노출함. 자신있게 말하는데 만약 통계청에서 최영섭 선생이 예를 든 식으로 지역이든, 계층이든, 연령이든, 다른 어떤 다른 특성이든 가계동향조사의 연속 표본과 대체 표본의 차이가 극명하게 차이나게 설계했다면, 담당자는 업무 과실 내지는 무능으로 징계를 먹어 마땅함.  


횡단면 조사보다 종단면 조사가 돈도 많이 들고 어려움. 그럼에도 불구하고 <횡단면 조사 + 종단면 조사>로 가계동향조사 설계를 하는 이유는 이렇게 하면 시계열 비교의 안정성이 크게 높아지기 때문. 





그럼 왜 <횡단면 조사 + 종단면 조사>가 시계열 비교의 안정성을 높이는가? 


샘플 조사는 항상 여러가지 에러를 동반함. 최대한 랜덤 샘플링을 해도 순수 확률적 샘플링 에러가 있을 수 있음.  좀 더 심각하게는 어떤 이유에선가 샘플링이 랜덤이 아니고 편향될 수도 있음. 조사 방법을 바꾸면 랜덤 샘플이라도 비표집 에러 때문에 결과가 달라질 수 있음. 횡단면 조사에 종단면 성격을 삽입하면 랜덤 샘플 에러를 줄일 수 있고, 설사 일부 연도 표집에 편향이 있더라도 편향의 효과를 분산시킬 수 있음. 그래서 overtime comparison이 안정됨. (비표집 오차는 뒤에 간단히 얘기하기로 함. 이건 또 다른 이슈가 있음)


통계 101에서 배우듯 샘플링에 특정 편향을 배제하는 최선의 방법은 랜덤 샘플링임. 가계동향조사처럼 시계열적 비교를 목표로 할 경우 매년 무작위 표집을 해야 함. 만약 3년마다 1/3씩 샘플을 교체하면 각 연도별 1/3의 샘플이 아무런 작위 없는 랜덤이 되도록 설계해야 한다는 것. 이렇게 하면 설사 특정 해에 일반적으로 기대하는 범위를 벗어난 확률적 표집오차 내지는 편향이 있다 할지라도, 매년 1/3씩 랜덤하게 샘플을 교체하면, 표집의 bias 뿐만 아니라 표집오차도 헤징이 됨. 투자에 대한 격언으로 모든 계란을 한 바구니에 담지 말라는 말과 비슷한 것. 표본과 관련된 오차를 분산시킴으로써 시계열 비교의 안정성이 높아짐. 


이렇게 하지 않는 잘못된 예를 들자면 다음과 같음. 첫 해는 고소득층, 두번째 해는 중산층, 세번째 해는 저소득층을 교체하면, 첫해 고소득층을 추출할 때 생겼던 어떤 에러의 특성이 3년간 지속되고, 그 다음 3년은 중산층, 다음 3년은 저소득층의 에러의 특성이 지속됨. 매 년 1/3의 샘플을 랜덤하게 교체하는 것에 비해 소득 구간별 소득 측정의 3년 단위 에러 가능성을 높임. 이렇게 되면 교체 차에 나타난 소득 계층의 변화가 샘플 교체로 인한 것인지, 실제 변화를 반영하는 것인지 구분하기 어렵게 됨. 예를 들어 2015년 저소득층 샘플에 무슨 이유에선거 체계적 편향이 있었는데, 2018년 대체 샘플에서는 이 체계적 편향을 제거하고 제대로 샘플링을 했다면, 2017년과 2018년을 비교할 때 저소득층의 소득증감이 2015년에 잘못했던 체계적 편향 때문인지, 2017년과 2018년의 실체적 변화 때문인지 알 수 없게 됨. 


물론 샘플 추출에 에러가 전혀 없다면 이런 문제는 발생하지 않음. 하지만 에러가 전혀 없다는 보장이 없기에 가계동향조사처럼 횡단면+종단면으로 매년 1/3씩 샘플을 교체하는 것으로 설계해 에러 가능성과 정도를 줄이는 것.  


이 때문에 매년 1/3씩 샘플을 교체하고, 한 번 샘플에 들어오면 3년 유지를 목표로 하는 가계동향조사에서 각 1/3 샘플은 최대한 랜덤으로 유사한 특징을 가지게끔 설계해야만 함. 가계동향조사가 실제로 그렇게 설계했는지는 모르겠음. 하지만 통계 생산 전문가인 통계청이니 당연히 그렇게 했을 것으로 믿고 있음. 물론 매년 추계인구가 바뀌므로 신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함. (3년 유지 패널인데 탈락하기 때문에 추가하는 샘플도 있는게 논의의 편의를 위해 일단 그 이슈는 제외함). 


(여기서 잠깐. 통계를 아는 사람들도 가끔 잘못 이해하는 경우가 있는데 인구 통계에 대한 사전 정보가 있으면 이에 맞춰서 샘플을 조정할 수 있음. 이렇게 하면 오차가 줄어듦. 앞에서 완전 랜덤으로 샘플링해야 한다고 말한거 보고, 통계청에서는 인구에 대한 사전 정보 이용한다고 제가 뭔가 잘못안다는 식으로 뜬금포 날리기 없기.)





만약 아이디얼한 상황을 가정해서, 표집의 순수 확률적 랜덤 에러가 예외적으로 크지 않고, 편향이 없어서, 연속 표본과 대체 표본을 합친 전체 표본이 모집단을 잘 대표한다면 최영섭 선생의 주장처럼 연도별 표본 대체를 어떻게 하였든 전체 표본으로 시계열적 비교를 하는데 큰 문제가 없음. 아이디얼한 경우에는 횡단면 비교 목적인 가계동향조사를 <횡단면 조사 + 종단면 조사>로 시행할 이유도 줆어듦. 


물론 이 경우에도 표집의 순수 확률적 랜덤 에러가 일반적 허용 범위를 벗어날, 매우 낮지만 그래도 0으로 만들 수 없는 "확률"은 항상 존재함. 누구나 복권을 사서 횡재할 확률이 있는 것과 마찬가지임. 그래서 통계 해석은 늘 확률로 해야함, 진리에 대한 확정이 아니고.  


다른 한 편 연속표본이나 대체표본이나 전체 모집단을 잘 대표하고, 시계열적 변화를 잘 반영한다면 가계동향조사의 패널 표본을 종단면적으로 분석해도 아무런 문제가 없음. 노말한 상황에서 전체 저소득층의 소득이 줄었는데, 연속표본으로 남은 집단만 소득이 오르는 일은 없음. 그러니까 연속표본과 대체표본에 아무런 바이어스가 없는 상황을 가정하고 주장하는 최영섭 선생의 주장은 가계동향조사를 패널로 분석해도 횡단면으로 분석할 때와 변화 방향이 일치할 것으로 예견할 때도 필요한 가정(=조건)임. 


그런데 표본자료에서 이 가정이 실제로 성립하는지, 아니면 뭔가 이 가정과 다른 에러가 있는건지 어떻게 앎? 불행히도 이 가정에 대한 직접적 검증은 불가능함. 통계 이론적으로 가정하는 것. 하지만 간접적 검증의 방법이 있음. 바로 전체 표본과 연속 표본의 결과에 상당한 차이가 나면 이 가정에 문제가 생겼다는 신호임. 바로 여기서 가계동향조사의 종단면 연속 샘플을 따로 떼어내서 혹시 에러는 없는건지 검증해볼 가능성이 생기는 것.  


정리하면, 가계동향조사로 시계열 비교를 할 때 편향없는 무작위 표집이라는 assumption이 맞다면, 전체 표본을 이용한 시계열 비교와 연속 표본을 이용한 패널 비교가 질적으로 일치해야 함. "A(에러 없는 표집)면 B(시계열비교 가능)다"라는 주장은 일반적으로 맞는 얘기임. A라는 가정은 일반적으로 의심하지 않지만, 이 번처럼 표본에 큰 변화가 있고, 기술통계의 연속성에 의문이 제기되면, 그 가정이 맞는지를 확인할 필요가 생김. 


이 때 바로 C(전체샘플과 연속샘플 비교의 동일성 여부)를 보면 A를 가정하는게 맞는지 틀리는지 알 수 있음. 제가 얘기하는 건 바로 이것임. C로써 A라는 가정의 타당성을 체크할 수 있다는 것. 그런데 이우진 교수의 분석(= C)을 보니 (에러 없는 표집 이라는) A가 맞지 않을 가능성이 크다는 것. 이렇게 되면 시계열 비교를 위해 필요한 기본적 조건이 흔들리게 됨. 


C 얘기를 하는데, 제 글을 비판하는 전문가 분들이 "A면 B다"라는 명제를 반복하고 있는 것. "A면 B다"라는 전문가의 상식을 배경지식으로 깔고 하는 얘기인데, 전문가라는 분들이 진도나간 얘기를 이해못하고, 엉뚱한 비판을 해서, 결국 배경 지식에 대한 논의를 다시 하고 있으니, 제가 얼마나 답답하겠음. 






통계청에서 하는 어떤 조사도 일부러 편향된 표집을 하지는 않음. 최선을 다해 랜덤 샘플링을 하지만 그럼에도 불구하고 조사 방법이 바뀌면 뭔가 변화가 생기는 것. 표집오차일 수도 있고, 비표집오차일 수도 있음. 비표집오차의 예로  5,500개 샘플을 8,000개 샘플로 늘리면서 조사 품질 관리에 문제가 생길 수도 있음. 샘플수가 늘어나면 표집오차는 줄어들지만, 관리비용도 늘어나기 때문에 비표집오차는 증가함. 


가계동향조사는 작년과 올해 우여곡절을 겪었고, 표본 구성이 달라짐. 가구 추계도 2010년 베이스에서 2015년 베이스로 바뀌면서 변화의 정도도 커짐. 이렇게 변화가 있을 때 가계동향조사의 <횡단면 조사 + 종단면 조사> 설계는 변화된 표집으로 시계열적 비교의 안정성이 확보되는지 확인할 수 있는 중요한 수단을 제공함. 


위에서 설명했듯 표본 변화가 전체 추세에 영향을 끼치지 않았다면, 전체 표본의 시계열 변화와 연속 표본의 시계열 변화가 질적으로 동일한 결과가 나와야 함. 


그런데 이우진 교수가 검증해보니 연속 표본의 결과가 전체 표본과 상당히 다르게 나온 것. 그래서 내릴 수 있는 결론은 연속 표본의 결과가 맞다가 아니라, 전체 표본을 이용한 시계열 비교를 신뢰할 수 없다는 것임. 아래 그래프에서 보듯 평균값도 이상하게 튐. 


그러니 횡단면 조사의 표본 설계를 어떻게 하는지 모르고 연속 표본의 사이즈로 가계동향조사의 시계열 비교가 가능한 것으로 제가 오해하고 있다는 최영섭 선생의 비판은, 최영섭 선생이 <횡단면 조사 + 종단면 조사>이루어진 횡단면 조사 표본 설계의 원리를 잘 모르고 한 비판일 가능성이 농후함. 





Ps. 참고로 아래 올린 패널 콘디셔닝은 연속 표본과 전체 표본에 차이가 날 수 있는 한가지 잠재적 메카니즘에 대한 글임. 지금 쓴 이 포스팅 내용을 배경 지식으로 가지고 있어야 제대로 이해할 수 있는 얘기임. 


Pps. 최영섭 선생의 비판 중 첫번째 포인트인 면접식 도입이 2017년이라는 지적은 옳음. 다만 이 방식과 샘플 확대가 결합할 때 어떤 비표집오차를 일으킬지는 또 하나의 체크포인트. 


이런 가능성이 있음. 원래 기장식이던 가계동향조사에 2017년부터 면접식을 도입. 그런데 면접식은 기장식보다 면접원 통제라는 새로운 요소가 가미됨. 면접원에 따라 결과가 바뀌는 비표집오차의 가능성이 추가됨. 면접원의 품질 통제는 상당한 관리 비용이 들어감. 


그런데 2018년에 2017년에 비해 가계동향조사의 표본수가 크게 증가함. 이에 따라 면접원의 품질에 따른 비표집오차의 개입 개연성도 크게 증가됨. 즉, 비록 면접식의 도입은 2017년이지만, 이러한 면접 방식의 변화가 조사 결과에 더 크게 영향을 끼칠 가능성은 2018년일 수도 있다는 것 (꼭 그렇다는건 아님. 통계청에서 응답 방식에 대한 원자료를 제공하면 이것도 체크해볼 수 있음).  


그러니까 타당한 지적인 최영섭 선생의 첫번째 포인트도 2018년의 표본수 확대라는 문제까지 고려해서 좀 더 깊이 들어가면 그렇게 단순하게 조사방식 변경 효과는 무조건 2017년에 나타나야 한다고 주장할 수 있는게 아님. 

Posted by 바이커 sovidence

댓글을 달아 주세요

  1. 바이커 2018.09.09 13:47  댓글주소  수정/삭제  댓글쓰기

    글 수정: 다시 읽어보니 오타와 비문도 있고, 설명이 부족한 부분도 있어, 비유를 추가하는 등 글을 다소 수정하였습니다,

    마지막 추신에서 올해 가계동향조사 결과가 튈 수 있는 또 다른 가능성을 추가로 제시한 것 외에 기본 내용의 변화는 없습니다.

  2. ㅇㅇ 2018.09.10 17:00  댓글주소  수정/삭제  댓글쓰기

    기존 표본으로 통계내도 결과는 큰 차이 없다고 통계청이 밝힌지 오래입니다
    결론 정해놓고 뭘 고민하거나 짜깁기 하면 정치꾼들 악다구니랑 다를게 없죠
    가계동향조사 제외해도 거의 모든 통계수치가 올해 급격히 폭락하는 중입니다

    • 바이커 2018.09.10 23:20  댓글주소  수정/삭제

      이우진 교수 글에 대한 반박 분석을 통계청에서 발표했던가요? 내용 링크 부탁드립니다.

  3. billybat 2018.09.14 07:01  댓글주소  수정/삭제  댓글쓰기

    가계동향조사 이슈에 관심을 갖고 있던 차에 이 블로그를 알게 되어 몇 시간 동안 관련 포스팅을 읽고 많이 배웠습니다. 실례가 아니라면, 몇 가지 궁금한 점을 여쭈어 보고 싶습니다.

    1) 전체 표본 시계열분석과 연속 표본 시계열분석의 동일성을 확인해야 할 필요성에 전적으로 공감합니다. 교수님께서 이미 말씀하셨듯이 연속표본 분석 시 가중치를 조정해야 하는데, 다른 글에서 여러 변수로 logit 등으로 표본지속확률의 역수를 추정하고 원가중치에 곱해서 가중치를 조정하는 방법을 말씀하셨습니다. 그런데 이렇게 조정된 가중치를 적용한 연속표본은 1시점의 모집단을 대표하는 표본이므로 이 표본에 대해서는 1시점 소득 통계치를 얻는 것이고, 시간에 따른 모집단의 특성 변화를 반영하기 위해서는 2시점 모집단 추계인구 사전정보를 활용한 poststratification을 추가적으로 실시한 가중치를 적용한 상태에서 2시점 소득 통계치를 구해야 하는 것이 아닌지요? 그런데 logit으로 retention을 반영하는 가중치를 만드는 작업은 변수 선택의 문제가 있긴 하지만 대체로 일반적인 개인 연구자가 할 수 있겠지만, post stratification은 추계인구 정보가 있어야 하는 문제도 그렇고 정보가 있다 하더라도 방법도 분명하지 않아 보이는 것 같습니다.
    아니면 아예 접근을 달리해서 모집단 분포 변화를 통제한 상태에서 연속표본 분석과 전체표본 분석을 실시한다고 생각하고, retention을 반영한 가중치를 적용하여 연속표본으로 1시점과 2시점 소득통계치를 다 구하고, 대신 비교해야 할 전체 표본 분석에서 2시점 표본에 대해 1시점 모집단 특성과 일치하도록 reweighting하여 2시점 소득통계치를 구하는 것이 맞을까요? 아니면 제가 무언가 잘못 생각한 것인지요?

    2) 횡단조사에 종단조사를 섞는 방식에 대한 교수님의 설명이 많은 공부가 되었습니다. 위에서 설명하신 매년 1/3의 샘플이 교체되는 상황에서, "신규 유입되는 1/3 샘플은 변화하는 추계인구의 특성도 반영되게끔 함."이라고 설명해주셨습니다. 그런데 어차피 매 시점 모집단을 대표하도록 post stratification을 해야 할텐데, 신규 유입되는 1/3 샘플이 추계인구 특성을 굳이 반영할 필요가 있는지요? 아니면 반드시 그러해야 하는 것은 아니지만, 실제로 일반적으로 그렇게 한다는 말씀이신지요?

    3) 6월 조선일보 기사 관련 포스팅의 말미에서, “가계동향조사 같은 자료로 분석할 때는 대표가구수로 주어진 원자료 가중치로부터 추출확률을 역으로 계산하고, 이의 역수로 새롭게 가중치를 줘야 한다.”고 말씀하셨는데, 잘 이해가 되지 않습니다. (해당 포스팅에 댓글 남기는 게 맞겠습니다만, 시간이 많이 지나 이곳에 남깁니다.) 예를 들어 어떤 가구의 원자료 가중치가 1000이라면 해당 가구가 표본으로 추출될 확률이 1/1000이기 때문에 그 역수인 1000이라는 가중치를 부여받은 것일텐데, 새로운 가중치는 무엇을 말씀하시는 것인지 잘 모르겠습니다. 혹시 가중치의 평균이 1이 되도록 scale을 조정한 가중치를 말씀하시는 것인지요?

    블로그 댓글로 이런 것까지 여쭈는 것이 적절한지 모르겠습니다. 혹시 실례가 되었다면 너그러이 양해부탁드립니다.

    • 바이커 2018.09.14 10:11  댓글주소  수정/삭제

      좋은 질문 감사합니다.

      1) 로짓, 프로빗을 언급했던 목적은 가중치가 중요하다는 기초적인 언급들을 너무 많이 하셔서 저도 가중치 이해한다고 알려주기 위해서였습니다.

      원글에서도 말씀드렸듯이 연속표본을 분석하는 이유가 신규표본을 추가한 후의 전체 표본에 어떤 편향이 없는지를 간접적으로 확인하는 것이기 때문에, 1시점 모집단에 attrition만을 조정하는 가중치를 써도 연속표본과 전체표본 비교에 문제가 없습니다. 1,2시점 모두에 샘플링에 편향이 없다면, 남는 문제는 attrition 밖에 없으니까요.

      말씀하신 방법으로 하면 다른 인구학적 변화요인을 통제한 상태에서 연속표본과 전체표본의 소득증감 비교를 더 정확히 할 수는 있겠죠. 다만 이 분석을 하는 원래 목적(신규 유입 표본에 뭔가 편향은 없는가 확인)을 생각했을 때 이렇게 복잡하게 해서 얻을 수 있는 결론이 앞의 좀 더 간단한 방법과 다를 바 없습니다.

      2) 그래야 분석하는 인구단위별 샘플수와 그에 따른 st.error를 일정하게 유지할 수 있으니까요. 처음 1-2 해는 이 효과가 크지 않겠지만, 장기적으로는 추계인구에 따라 샘플 대표성을 바꿔주지 않으면 인구집단별로 st.error의 차이가 너무 커집니다. 통계청에서는 상대적 표준오차가 일정 수준 이하일 때만 통계를 작성할 수 있다고 원칙을 정하고 있습니다 (개인적으로 이 방법에 완전히 동의하지는 않습니다). 가계동향조사가 가구가 아닌 가구 내 개인까지 추적(e.g., PSID)한다면 신규샘플의 추계인구 특성 반영이 필요없겠죠.

      3) 맞습니다. 가중치 평균이 1이 되어야 한다는 얘기입니다. SPSS 쓰시는 분들을 염두에 두고 한 말이었습니다. 지금은 모르겠는데, 예전에는 SPSS에 frequency weight와 비슷한 옵션 밖에 없었거든요. "추출확률"이 아니라 "상대적 추출확률"이라고 했어야 정확했을 것 같습니다.

    • billybat 2018.09.14 20:15  댓글주소  수정/삭제

      친절히 설명해주셔서 감사합니다. 큰 도움이 되었습니다.

  4. 김신호 2018.09.21 16:47  댓글주소  수정/삭제  댓글쓰기

    한가지만 말씀드리겠습니다. 가계동향조사에서는 이사가면 추적조사하지 않습니다. 패널조사가 돈도 많이 들고 어렵다고 하시는데 추적조사하는 오리지널 패널조사를 염두에 두고 말씀하시는 것 같아서요. 다년간 동일가구를 조사하는 이유는 오히려 조사 편의성 때문입니다. 매번 새로운 가구로 대체하면 설득부담이 크기 때문입니다.

    말씀사신 대로 체계적으로 대체되는 가구는 원칙적으로 문제가 없을 것입니다. 다만 이사로 인한 이탈가구도 15~20%인데 차가비중이 모집단에 비해 높아 이를 반영하지 않으면 편향 문제가 발생합니다.

    • 바이커 2018.09.21 16:54  댓글주소  수정/삭제

      그런 편의성만 고려하면 왜 3년마다 일부러 교체하겠어요. 탈락할때까지 끝까지가지. 위에 원글을 제대로 읽으세요.

  5. 김신호 2018.09.21 17:01  댓글주소  수정/삭제  댓글쓰기

    편의성만 고려하지 않습니다. 교수님께 표본이라고 평생 가계부 써달라면 써 주시겠어요? 과거 5년하다 3년으로 줄인 이유는 응답자 부담과 그에 따른 불응 증가 때문입니다.

    • 바이커 2018.09.21 17:14  댓글주소  수정/삭제

      순환패널의 목적과 장점에 대해서 원글에서 잔뜩 써놨는데, 통계청의 순환패널은 제가 위에 써놓은 목적과 전혀 관련없이 몇 가지 조사편의를 위해서 그렇게 설계했다고 주장하는 겁니까?