728x90
결측치란
데이터가 없음을 의미한다. 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다.
결측 데이터의 종류
완전 무작위 결측(MCAR : Missing Completely At Random) : 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 다른 변수와 아무런 연관이 없는 경우이다.
ex) X,Y,Z와 관계없이 Z가 없는 경우
무작위 결측(MAR : Missing At Random) : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우
ex) 여성은 체중 공개를 꺼린다.
비 무작위 결측(NMAR : Not Missing At Random) : 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의하는 즉, 결측변수값이 결측여부와 관련이 있는 경우
ex) 무거운 사람들은 체중 공개 가능성이 적음
결측값 유형의 분석 및 대치
단순 대치법
- Compeletes Analsis : 불완전 자료는 완전하게 무시하고 분석을 수행한다.
- 평균 대치법 : 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치
- 회귀 대치법 : 회귀분석에 의한 결측치를 대치, 조건부 평균 대치법이라고도 한다.
- 단순확률 대치법 : 평균 대치법에서 추정량 표준오차의 과소 추정을 보완, Hot-deck방법, 확률추출에 의해서 전체 데이터 중 무작위로 대치
- 최근방 대치법 : 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치
다중대치법
단순 대치법을 복수로 시행
1단계 - 대치단계
: 복수의 대치에 의한 결측을 대치한 데이터 생성
2단계 - 분석단계
: 복수 개의데이터 셋에 대한 분석 시행
3단계 - 결합단계
: 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출