본문 바로가기

분류 전체보기54

[데이터 수집] 공공데이터 API - Requests, Beautiful Soup 사용하기 오픈API 정의 오픈: Open, 개방, 공개 API: Application Programming Interface, 응용 프로그램 인터페이스 오픈 API: 일반적으로 웹 서비스(Web Services)형태로써 특정 기능 혹은 콘텐츠 서비스를 위해 외부에 접근 방법을 공개한 형태 오픈 API 동작 원리 동작 단계 1. 요청(request)하는 단계 GET방식 링크(link) 할 수 있는 URL을 가지고 있는 것[형식] 요청URL?변수1=변수값1&변수2=변수값2... (‘&’표기로 변수구분) POST방식 폼(form)을 이용해서 수행(submit)하는 형태 수행 내용이 (body 안에) 숨겨져서 보내짐 서버의 값이나 상태를 바꾸기 위해 사용 2. 결과 (response)값을 받아 해석(parse)하는 단계.. 2021. 11. 19.
파이썬 이미지 파일, 경로 처리하기 - os, Pillow 파일 경로 경로를 다루기 위해서는 os 모듈이 필요하다. import os 현재폴더의 경로 확인하기 os.getcwd() or %pwd 'C:\\Users\\user\\Desktop\\수업자료\\2차' 현재폴더에 있는 모든 파일목록 출력하기 os.listdir() ['.ipynb_checkpoints', '01 for_while문.ipynb', 'if 실습 문제.ipynb', 'images', 'pic1.jpg', 'pic2.jpg', 'pic3.jpg', 'seoul.csv', 'test', '미션_기상청데이터.ipynb', '미션_이미지처리.ipynb', '실습_기상청데이터.html', '이미지정보.csv'] os.chdir로 폴더의 경로를 변경할 수 있다. os.chdir("C:\\Users\\us.. 2021. 11. 11.
문자 분리하기 split() '.'을 기준으로 문자를 분리하기 위해 split()은 사용한다. '강아지1.jpg'.split('.') [ '강아지1', 'jpg' ] 위와 같은 출력값에서 앞에 첫번째 문자 출력을 해본다. '강아지1.jpg'.split('.')[0] '강아지1' re.split() 위와 같은 방법으로 할 수 있지만 re를 사용해서 더 간편하게 문자를 분리 할 수 있다. import re 0-9까지의 숫자를 기준으로 문자를 분리한다. re.split('[0-9]','강아지1.jpg') [ '강아지1', 'jpg' ] 만약 숫자가 여러개가 있다면 아래와 같은 결과값이 나온다. re.split('[0-9]','강아지123.jpg') [ '강아지1', ' ', ' ' ,'jpg' ] TIP) +를 붙이게 되면.. 2021. 11. 11.
변수 선택 (Feature Selection) Feature Selection이란? 모델링 시 모든 feature를 사용하는 것은 매우 비효율적이기 때문에,일부 필요한 feature만 선택해서 사용할 수 있다. 필요한 변수만 선택해서 사용하기 위해 아래와 같은 방법이 있다. - Feature Engineering : 도메인 지식을 사용하여 데이터에서 피쳐를 변형/생성 - Feature Extraction : 차원축소(PCA)등 새로운 중요 피쳐를 추출 - Feature Selection : 기존 피쳐에서 원하는 피쳐만 (변경하지 않고) 선택 Feature Engineering은 데이터 피쳐를 어떻게 유용하게 만들것인가 Feature Selection은 데이터에서 유용한 피처를 어떻게 선택할 것인가 라고 생각할 수 있다. Feature Selectio.. 2021. 11. 8.
상관 분석 정형 데이터 분석에서 각 칼럼(feature) 간의 상관관계를 알아보는 것이 중요하다. 상관 분석 상관분석은 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법이다. 그렇기 때문에 상관 분석을 할 때 연속형 변수로 이루어진 칼럼만 사용해야 한다. dataset_number = dataset.select_dtypes(np.number) dataset에서 np.number 타입의 데이터만 선택한다. corr() 상관관계 분석( Correlation analysis) corr = dataset_number.corr() sns.heatmap() 상관관계를 그래프로 표현한다. -heatmap 기본 문법 ax=sns.heatmap(data, # 데이터 vmin=10, # 최솟값 vmax=70, # 최댓.. 2021. 11. 4.
데이터 기초 통계 분석 시각화 통계 분석 describe() pandas의 DataFrame은 describe이라는 각 컬럼의 평균값, 최대치, 최소치, 편차 등을 알 수 있는 메소드가 있다. 연습을 위해 iris데이터를 불러온다. from sklearn.datasets import load_iris iris=load_iris() 처음 불러오면 위와 같이 배열로 되어있기 때문에 DataFram형태로 바꿔준다. # feature_names 와 target을 레코드로 갖는 데이터프레임 생성 iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) iris_df['target'] = iris.target # 0.0, 1.0, 2.0으로 표현된 label을 문자열로 매핑 iris.. 2021. 11. 4.