개발공부

Time Series 데이터를 처리할 때 사용하는 resample 함수 본문

Python/Pandas

Time Series 데이터를 처리할 때 사용하는 resample 함수

mscha 2022. 5. 13. 17:31
groupby() 로는 년, 월, 일, 시, 분, 초 단위 등으로 묶을 수 없다.
resample() 함수는 이를 가능하게 해준다.
먼저 Date 컬럼을 인덱스로 만들어주면 resample 함수를 사용할 수 있게 된다.
이 함수를 통해 년, 월, 일, 시 등등으로 묶어서 처리가 가능해 진다.

 

아래와 같은 데이터 프레임이 있다.

시카고 에서 일어난 범죄에 대한 데이터이다.

이 데이터 프레임의 인덱스를 Date 로 바꿔준다.

# 해당 컬럼은 그대로 놔두고 인덱스로도 사용
chicago_df.index = chicago_df['Date']
chicago_df

이제 resample() 을 이용해보자

 

년도로 리샘플한 후, 년도별 몇개의 범죄 데이터를 가지고 있는지 확인하기

df_year = chicago_df.resample('YS').size()
df_year

 

월별 범죄 발생 건수를 확인하기

df_month = chicago_df.resample('M').size()
df_month

 

분기별 범죄 건수 확인하기

df_q = chicago_df.resample('Q').size()
df_q