본문 바로가기

취업준비/빅데이터분석3

데이터 결측값 처리(missing value) 결측치란 데이터가 없음을 의미한다. 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다. 결측 데이터의 종류 완전 무작위 결측(MCAR : Missing Completely At Random) : 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 다른 변수와 아무런 연관이 없는 경우이다. ex) X,Y,Z와 관계없이 Z가 없는 경우 무작위 결측(MAR : Missing At Random) : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우 ex) 여성은 체중 공개를 꺼린다. 비 무작위 결측(NMAR : Not Missing At Random) : 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의하는 즉, 결측변수.. 2021. 9. 13.
데이터 정제 데이터 정제란 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정 데이터로부터 원하는 결과나 분석을 얻기 위해서 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요하다! 데이터 전처리 : 데이터 저장 전 처리과정으로 대상 데이터와 입수방법 결정 및 저장방식 장소 선정 데이터 후처리 : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함 2021. 9. 13.
NoSQL이란? NoSQL 데이터베이스는 행과 테이블을 사용하는 관계형(SQL) 데이터베이스보다 훨씬 다양한 방식으로 빠르게 바뀌는 대량의 비정형 데이터를 처리할 수 있다. NoSQL은 Not Only SQL의 약자로 기존 관계형 데이터 베이스의 한계를 극복하기 위한 데이터 저장소의 새로운 형태이다. RDBMS가 클라이언트/서버 환경에 맞는 데이터 저장기술이라면, NoSQL은 클라우드 환경에 맞는 저장 기술이다. RDBMS란 관계형 데이터베이스(RDMBS)는 아래와와 같이 구성된 테이블이 다른 테이블들과 관계를 맺고 모여있는 집합체로 이해할 수 있다. 외래 키를 사용해 테이블 간 Join이 가능하다. [학생 Table] 학번 이름 과목id(foreign key) 11 홍ㅇㅇ 01 22 김ㅇㅇ 02 [과목 Table] 과.. 2021. 9. 10.