데이터 전처리 기초 #1 Nan처리하기

Notice

Recent Posts

Tags more

Archives

관리 메뉴

개발공부

Python/Machine Learning

mscha 2022. 5. 6. 17:35

학습을 위해 데이터를 Train과 Test 영역으로 나눠보자.

아래와 같은 데이터 프레임이 있다.

먼저 해당데이터에 Nan이 있으면 나중에 학습을 하는데 문제가 발생하니

여러가지 방법으로 Nan을 처리해야 한다.

먼저 데이터에 Nan이 있는지 확인해보자.

>>> df.isna().sum()
Country      0
Age          1
Salary       1
Purchased    0
dtype: int64

Age 컬럼과 Salary에 각 1개의 Nan이 있는 것을 확인할 수 있다.

이를 처리 해보자.

Nan이 있는 행 삭제 dropna()

df = df.dropna()
df

dropna()를 해서 Nan이 있는 행을 삭제할 수 있다.

Nan을 각 컬럼의 평균 값으로 변경

df[ 컬럼명 ].fillna( df[ 컬럼명 ].mean() )

df[['Age', 'Salary']] = df[['Age', 'Salary']].fillna(df[['Age', 'Salary']].mean())
df

데이터 전처리 기초 #5 sklearn라이브러리를 이용해 Dataset 나누기 (Training,Test) (0)	2022.05.09
데이터 전처리 기초 #4 피처 스케일링 Feature Scaling(표준화, 정규화) (0)	2022.05.09
데이터 전처리 기초 #3 sklearn(사이킷런) 라이브러리를 이용해 카테고리컬 데이터 처리하기 (레이블 인코딩, 원 핫 인코딩) (0)	2022.05.06
데이터 전처리 기초 #2 데이터(X)와 레이블(y)로 나누기 (0)	2022.05.06
머신 러닝(Machine Learning)의 이해 (0)	2022.05.06

'Python/Machine Learning' Related Articles