사회과학연구에서 전통적인 서베이 자료를 이용한 연구의 비중은 점점 줄어들고 있다.
아래 그림은 요즘 사회과학계의 신성, 라지 체티가 2012년에 발표했던 최근 경제학 4대 탑 저녈 출판 트렌드. 첫 번째 그림이 기존 서베이를 이용한 논문의 비중이고, 아래가 행정자료를 이용한 논문의 비중. 2010년에 경제학 4대 저널에서 기존 서베이 이용 논문은 평균 20% 정에 불과. 반면 행정자료를 이용한 논문이 50%를 넘어섬. 나머지 30% 정도는 실험 등 자체적으로 자료를 모은 경우임.
사회학에서도 세어보지는 않았지만 행정자료나 신규자료를 이용한 논문이 증가하고 있음.
앞으로 서베이 자료만을 이용하는 연구자는 매우 반짝이는 clever한 아이디어가 없으면 사회과학 탑저널에 출간하기가 점점 어려워질 것.
그런 면에서 한국의 사회과학 수준을 업그레이드하는 최고의 방법은 고퀄 데이타를 제공하는 것. 현 유경준 통계청장은 데이타 개방에 매우 적극적(이 분 재직시절 개시한 MDIS 시스템은 아무리 칭찬해도 부족)이지만, 행정자료를 이용한 연구는 아직도 걸음마 단계를 벗어나지 못하고 있음. 연구자가 접근 가능한 세금자료와 서베이자료를 링크한 자료도 전무한 실정.
반면 유럽복지국가 사회과학연구자들이 사용하는 자료는 눈이 휘둥그레질 지경.
최근 미국과 한국이 아닌 국가의 연구비 신청 프로포잘을 리뷰했는데, 구축하고자 하는 자료가 다음과 같음.
1990년대의 센서스와 2010년대 최근 센서스를 링크시킴. 대략 각 센서스에서 20%가 롱폼이니 두 개를 링크시키면 4%의 국민이 링크됨. 이렇게 하면 1990년대 부모 세대와 같이 살던 자녀가 성인이 되어 2000년 센서스에 포착되는 샘플을 따로 추출할 수 있음.
그 다음에 국세청의 자료를 이용하여 부모 세대의 각 연도별 소득을 모두 링크하고, 그 다음에 교육부 행정자료를 이용해서 구체적인 출신학교, 고교, 대학 성적, 학력고사 과목별 성적, 그리고 어릴 때 측정했던 IQ 등을 모두 링크함. 마찬가지로 자녀 세대의 소득, 구체적인 출신학교, 고교 대학 성적, 학력고사 성적, IQ 등을 모두 링크 시킴. 센서스 롱폼 조사에서 물어봤던 온갖 자료와 교육부/국세청 행정자료를 부모와 자녀에게 모두 링크시킨 초고퀄 데이타가 형성됨.
이 연구를 제안한 연구자가 국가 기관에 이런 자료를 만들려고 하는데, 해줄거임? 하고 물어봤더니 국가 기관에서 해준다고 함. 단 자료 유출은 안됨.
연구자는 이 자료를 이용해서 부모 세대와 자녀 세대의 사회이동 결정 요인(개천에서 용이 남? 그 결정 요인은 뭐임?)을 연구하고자 하니, 해당 국가 과학연구재단에 연구비 달라고 신청.
이런 자료를 이용한 연구 논문이 탑저널에 제출되는데, 한국 연구자가 KLIPS 같은 자료를 이용한 연구로 논문을 제출하면 받아주겠음? 아주 세련된 새로운 방법론이나 매우 놀라운 결과가 없으면 채택되기 쉽지 않음. 한국 사회과학자들이 SSCI 논문을 출간할 수 있도록 도와주는 최선의 방법이 바로 고퀄 데이타를 주는 것.
이 프로포잘에서 제안한 통계방법론은 별로 좋지도 않았지만, 기초통계만 내더라도 그 결과를 보고싶은 욕망이 마구마구 넘쳐남. 당근 연구지원을 해야 한다고 심사평을 제출. 돈낼테니 이 연구에 나도 끼워주면 안되냐고 이멜 보내고 싶은 심정.
어쩌다보니 운이 좋아서 미국에서 행정자료를 이용한 연구를 진행하고 있는데, 연구자로써의 생산성을 생각하면 한국 연구를 확대하려는 계획은...