본문 바로가기

데이터 이해하기/데이터 다루기7

[Python] glob.glob() 함수 사용하기 glob.glob() 함수는 파라미터에 명시된 저장 경로와 패턴에 해당하는 파일명을 리스트 형식으로 반환한다. (단, 조건에 정규식을 사용할 수 없으며 *와 ? 같은 와일드카드만 지원한다.) '*' 사용하기 '*'는 임의의 길이의 모든 문자열을 의미한다. all_input_list = glob.glob('train_input/*.csv') : train_input 폴더에 csv 파일들의 이름만 all_input_list에 리스트에 저장된다. '?' 사용하기 '?'는 한자리의 문자열을 의미한다. some_input_list = glob.glob('train_input/CASE_?.csv') : dir폴더에 CASE_.csv 파일들의 이름만 some_input_list에 리스트에 저장된다. 하위 디렉토리 탐.. 2022. 8. 23.
파이썬 csv파일 다루기(읽기, 쓰기, 수정, 추가) 1. csv 파일 읽기 import csv f = open('example.csv','r') rdr = csv.reader(f) for line in rdr: print(line) f.close() 각 line은 list 형식으로 되어있고, 해당 리스트의 인덱스를 지정하면 원하는 열만 가져올 수도 있다. for line in rdr: print(line[1]) 읽을때 skiprows를 통해 필요없는 행을 제외하고 불러올 수 있다. def makeBCISample(file_path, file_name, ofile_name, start_pos, end_pos): with open(os.path.join(file_path, file_name), 'r', encoding='utf-8') as csvfile: c.. 2022. 7. 29.
!mkdir(폴더 생성하기), !wget(데이터 불러오기) 요즘 수업을 들으며 구글 Colab을 많이 사용하게 되었다. Colab에서 폴더를 생성하고 깃허브에서 데이터 불러와서 저장까지 하는 방법을 정리해보자! 먼저 코랩에서 새로운 노트를 열고 왼쪽에 파일 그림을 클릭하면 폴더와 연동이 된다. !mkdir 기본 경로에 data 폴더를 만들기 !mkdir data 코드를 실행하고 조금 기다리거나 파일 새로고침을 클릭하면 data 폴더가 생성된 걸 확인할 수 있다. 이제 저 폴더 안에 내가 원하는 데이터를 저장할 것이다. github에서 chipotle.tsv 와 drinks.csv 파일을 불러와보자. chipotle.tsv 불러오기 https://github.com/yoonkt200/python-data-analysis/blob/master/data/chipotl.. 2021. 11. 29.
[데이터 수집] 공공데이터 API - Requests, Beautiful Soup 사용하기 오픈API 정의 오픈: Open, 개방, 공개 API: Application Programming Interface, 응용 프로그램 인터페이스 오픈 API: 일반적으로 웹 서비스(Web Services)형태로써 특정 기능 혹은 콘텐츠 서비스를 위해 외부에 접근 방법을 공개한 형태 오픈 API 동작 원리 동작 단계 1. 요청(request)하는 단계 GET방식 링크(link) 할 수 있는 URL을 가지고 있는 것[형식] 요청URL?변수1=변수값1&변수2=변수값2... (‘&’표기로 변수구분) POST방식 폼(form)을 이용해서 수행(submit)하는 형태 수행 내용이 (body 안에) 숨겨져서 보내짐 서버의 값이나 상태를 바꾸기 위해 사용 2. 결과 (response)값을 받아 해석(parse)하는 단계.. 2021. 11. 19.
파이썬 이미지 파일, 경로 처리하기 - os, Pillow 파일 경로 경로를 다루기 위해서는 os 모듈이 필요하다. import os 현재폴더의 경로 확인하기 os.getcwd() or %pwd 'C:\\Users\\user\\Desktop\\수업자료\\2차' 현재폴더에 있는 모든 파일목록 출력하기 os.listdir() ['.ipynb_checkpoints', '01 for_while문.ipynb', 'if 실습 문제.ipynb', 'images', 'pic1.jpg', 'pic2.jpg', 'pic3.jpg', 'seoul.csv', 'test', '미션_기상청데이터.ipynb', '미션_이미지처리.ipynb', '실습_기상청데이터.html', '이미지정보.csv'] os.chdir로 폴더의 경로를 변경할 수 있다. os.chdir("C:\\Users\\us.. 2021. 11. 11.
집합 자료형 차집합 difference(), 합집합 union() , 교집합 intersection(() set() : 집합 특징 중복을 허용하지 않는다. 순서가 없다(Unordered). a = set([1, 2, 3, 4]) b = set([3, 4, 5, 6]) 차집합 : 두 set 간의 차이중, 첫 번째 set에 속하는 집합 반환 ex) set_A.difference(set_B) difference() diff = a.difference(b) 또는 diff = a-b print(diff) 결과 { 1, 2 } 합집합 : 중복을 제외한 전체 값 출력 union() a.union(b) 또는 a|b 결과 {1, 2, 3, 4, 5, 6} 교집합 intersection() a.intersection(b) 또는 a & b 결과 {3, 4} 2021. 11. 1.