본문 바로가기

데이터 이해하기10

데이터 기초 통계 분석 시각화 통계 분석 describe() pandas의 DataFrame은 describe이라는 각 컬럼의 평균값, 최대치, 최소치, 편차 등을 알 수 있는 메소드가 있다. 연습을 위해 iris데이터를 불러온다. from sklearn.datasets import load_iris iris=load_iris() 처음 불러오면 위와 같이 배열로 되어있기 때문에 DataFram형태로 바꿔준다. # feature_names 와 target을 레코드로 갖는 데이터프레임 생성 iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) iris_df['target'] = iris.target # 0.0, 1.0, 2.0으로 표현된 label을 문자열로 매핑 iris.. 2021. 11. 4.
plt.style.use() - matplotlib 테마 바꾸기 print(plt.style.available) ['Solarize_Light2', '_classic_test_patch', 'bmh', 'classic', 'dark_background', 'fast', 'fivethirtyeight', 'ggplot', 'grayscale', 'seaborn', 'seaborn-bright', 'seaborn-colorblind', 'seaborn-dark', 'seaborn-dark-palette', 'seaborn-darkgrid', 'seaborn-deep', 'seaborn-muted', 'seaborn-notebook', 'seaborn-paper', 'seaborn-pastel', 'seaborn-poster', 'seaborn-talk', 'seaborn.. 2021. 11. 4.
집합 자료형 차집합 difference(), 합집합 union() , 교집합 intersection(() set() : 집합 특징 중복을 허용하지 않는다. 순서가 없다(Unordered). a = set([1, 2, 3, 4]) b = set([3, 4, 5, 6]) 차집합 : 두 set 간의 차이중, 첫 번째 set에 속하는 집합 반환 ex) set_A.difference(set_B) difference() diff = a.difference(b) 또는 diff = a-b print(diff) 결과 { 1, 2 } 합집합 : 중복을 제외한 전체 값 출력 union() a.union(b) 또는 a|b 결과 {1, 2, 3, 4, 5, 6} 교집합 intersection() a.intersection(b) 또는 a & b 결과 {3, 4} 2021. 11. 1.
apply(), lambda() 1. apply() apply() 함수는 DataFrame의 칼럼에 복잡한 연산을 vectorizing 할 수 있게 해주는 함수로 매우 많이 활용되는 함수이다. 아래와 같은 데이터 프레임이 있다고 가정했을 때 df = pd.DataFrame([[1,2],[3,4],[5,6]], columns=['a','b']) plus 함수를 적용해보자 def plus(x): x+=1 return x df['a'].apply(plus) 2. lambda() lambda 입력변수 : 리턴값 위에서 plus 함수를 정의 하는대신 lambda()를 활용해 같은 출력 값을 얻을 수 있다. df['a'].apply(lambda x : x+1) apply와 lambda 활용한 파생변수 생성 train['공급_자격'] = train.. 2021. 11. 1.