728x90
1. apply()
apply() 함수는 DataFrame의 칼럼에 복잡한 연산을 vectorizing 할 수 있게 해주는 함수로 매우 많이 활용되는 함수이다.
아래와 같은 데이터 프레임이 있다고 가정했을 때
df = pd.DataFrame([[1,2],[3,4],[5,6]], columns=['a','b'])
plus 함수를 적용해보자
def plus(x):
x+=1
return x
df['a'].apply(plus)
2. lambda()
lambda 입력변수 : 리턴값
위에서 plus 함수를 정의 하는대신 lambda()를 활용해 같은 출력 값을 얻을 수 있다.
df['a'].apply(lambda x : x+1)
apply와 lambda 활용한 파생변수 생성
train['공급_자격'] = train.apply(lambda x : x['공급유형'] + '_' + x['자격유형'], axis=1)
test['공급_자격'] = test.apply(lambda x : x['공급유형'] + '_' + x['자격유형'], axis=1)
train
참조
'데이터 이해하기 > 데이터 다루기' 카테고리의 다른 글
파이썬 csv파일 다루기(읽기, 쓰기, 수정, 추가) (0) | 2022.07.29 |
---|---|
!mkdir(폴더 생성하기), !wget(데이터 불러오기) (0) | 2021.11.29 |
[데이터 수집] 공공데이터 API - Requests, Beautiful Soup 사용하기 (0) | 2021.11.19 |
파이썬 이미지 파일, 경로 처리하기 - os, Pillow (0) | 2021.11.11 |
집합 자료형 차집합 difference(), 합집합 union() , 교집합 intersection(() (0) | 2021.11.01 |