노동패널 잘 쓰는 방법?

Date2018.08.07
Hit2,211

노동패널자료의 조사차수가 늘어나면서 자료의 한계로 인해 할 수 없었던 많은 실증연구들이 가능해졌다. 그러나 패널자료 분석에 뛰어들었던 많은 연구자들이 이내 분석을 포기하고 마는 경우가 종종 있는데, 이는 변수가 워낙 많고 자료도 복잡하기 때문이다. 19차 조사 자료에만 총 2천여개의 변수들이 개인용․가구용․부가조사용․직업력 자료를 구성하고 있다. 이 변수들 중에서 분석모형에 사용할 변수들을 일일이 찾아내야 한다. 고생 끝에 필요한 변수들을 찾아낸다 하더라도 어떤 것을 선택해야 적절한지 난감할 수 있다.

당연한 말이겠지만 패널자료를 잘 쓰기 위해서는 인내심을 갖고 느긋하게 자료를 이리저리 만져보는 것이 필요하다. 코드북과 데이터만 갖고서는 제대로 된 분석을 하기 어렵다. 동일한 변수라도 각 연도별로 항목값이 다른 경우가 많으므로 반드시 각각의 변수에 대해 설문지를 확인해야 한다. 만일 노동패널을 처음 사용하는 연구자라면 자료를 만지기 전에 아래의 절차를 밟기를 추천한다.

1. 먼저 유저가이드 1장 한국노동패널소개와 3장 자료의 주요 특성 부분을 읽어본다.
2. 자료를 열어보기 전에 먼저 설문지를 전체적으로 훑어본다. 특히 관련 문항들의 전후구조에 유의한다.
3. 다음으로 설문지에 분석주제와 관련된 문항들이 있는지를 하나하나 체크한다.
4. 설문지에서 체크한 문항들이 실제로 코드북의 변수값과 일치하는지를 체크한다.
- 이때 해당 주제와 관련한 내용이 유저가이드에 언급되어 있는지를 확인한다. 유저가이드의 변수가이드와 주제별 가이드에는 연구자들이 놓치기 쉬운 데이터의 핵심 내용을 최소한으로 요약한 것이므로 참조가 될 것이다.
5. 데이터 기초분석을 통해 관련 변수들의 빈도값이 코드북에 나와있는 빈도값과 일치하는지를 확인한다. 이때 missing값의 처리에 주의한다.

◎ FAQ에 사용된 예제 프로그램에 대해

1. 아래의 예제 프로그램들은 노동패널 19차년도 Release 자료를 기초로 작성되었다. 주의할 점은 자료를 불러오기 위해서는 경로를 지정해 주어야 된다는 점이다. 아래의 예제에서는 다음과 같이 지정하였다.
※ SAS library명은 다음과 같다: a-data 폴더, new-새폴더.
libname a ‘D:\15차\data\[SAS] 1-19th 자료'
libname new ‘D:\15차\data\[SAS] 1-19th 자료\new'

※STATA 는 cd로 파일경로를 지정하고, klips 데이터는 용량이 크므로 충분한 메모리를 할당 시켰다.
cd "D:\19차\data\[STATa10] 1-19th 자료"
clear
set memory 700m, permanently //klips

2. R에서 사용된 패키지는 최초 설치 후에는 재설치 할 필요가 없다. R studio 가동 시 1회만 실행해주면 된다. 아래의 예제 프로그램들에서는 총 5개의 패키지가 사용되었다.
"Reshape2", "dplyr", "foreign", "plyr", "gmodels".

3. 아래의 예제 프로그램들은 단지 ‘예제’일 뿐임을 주지하기 바란다. 즉, 해당주제와 분석목적에 따라 노동패널팀 필자들과는 얼마든지 다른 정의와 구분을 토대로 프로그램을 작성할 수 있다. 프로그램의 효율성 면에서도 얼마든지 훨씬 효율적인 프로그램을 만들 수 있을 것이다.

<한국노동패널 1~19차년도 조사자료 User's Guide 112p 참고>