본문으로 바로가기

데이터가이드

KLIPS의 데이터를 가장 효과적으로 활용할 수 있는 방법

데이터 활용

가구자료에서 모든 가구원의 성별, 연령, 가구주와의 관계 추출

  • Date2021.03.24
  • Hit1,453
가구자료에 수록된 가구원의 성별, 연령, 가구주와의 관계, 학력 등의 정보들은 노동패널팀에서 자체 가공하여 개인자료에 “(가구정보)”라는 라벨이 붙은 변수로 제공하고 있습니다.
따라서 개인자료를 분석하는 일반적인 상황이라면 가구자료에서 가구원의 인적특성 정보들을 별도로 추출할 필요가 없습니다.

그러나 연구상황에 따라 개인자료에 포함되지 않은 개인의 인적 특성 등이 필요한 경우가 발생 할 수 있습니다. 대부분의 범용 통계패키지들은 행 단위의 연산보다는 열 단위(변수단위)의 연산에 적합하도록 만들어졌습니다.
따라서 이런 문제를 풀기 위해서는 자료의 적절한 조작이 필요합니다.

가구자료의 성별, 연령, 가구주와의 관계 변수는 1가구에 소속된 가구원일 경우 1개 case내에 붙어 있습니다.
예컨대, 1가구에 소속된 가구원이 10명이라면 1부터 15번째 가구원의 성별 변수들 사이에 흩어져서 각각의 값이 들어가 있습니다.
우리의 목적은 이렇게 가로형태로 붙어있는 성별 변수를 개인 케이스별로 잘라내어 다시 붙이는 것입니다.
이렇게 하면 케이스는 조사된 개인 수에 따라 늘어나겠지만 성별변수는 원래 15개에서 1개로 줄일 수 있습니다.

아래에 첨부된 통계패키지 코드 예제들은 가로로 15개씩 나열되어있는 데이터를 하나의 변수의 세로 형태로 전치(transpose) 시켜 묶는 것을 기본으로 하고 있습니다. 구체적으로,

① 22차년도 가구자료로부터 1부터 15번째 가구원들의 성별, 가구주와의 관계, 연령변수를 추출하여 4개의 취합된 data set로 묶는다.

② 이렇게 생성된 4개의 데이터를 case merge하여, hhid22 기준으로 붙인다.

이를 위해서는 각 통계패키지 별로,

SAS : transpose 문
SPSS : restructure 문
Stata : reshape 문
R : arrange 문

을 사용하여 모든 가구원의 인구학적 특성 변수들을 구성할 수 있습니다. 세 코드를 비교해보면, 결국 동일한 변환과정임을 쉽게 알 수 있습니다.

첨부파일은 가구자료에서 모든 가구원의 성별, 연령, 가구주와의 관계를 추출하는 Stata, SAS 통계패키지 코드 예시입니다.
File

스크랩