Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- 분류 결과표
- string
- len()
- data
- wcss
- IN
- dendrogram
- DataAccess
- list
- count()
- Dictionary
- analizer
- function
- 최댓값
- Python
- hierarchical_clustering
- elbow method
- insert()
- matplotlib
- DataFrame
- sklearn
- nan
- del
- numpy
- Machine Learning
- pandas
- append()
- 덴드로그램
- 최솟값
- 반복문
Archives
- Today
- Total
개발공부
데이터 전처리 기초 #1 Nan처리하기 본문
학습을 위해 데이터를 Train과 Test 영역으로 나눠보자.
아래와 같은 데이터 프레임이 있다.

먼저 해당데이터에 Nan이 있으면 나중에 학습을 하는데 문제가 발생하니
여러가지 방법으로 Nan을 처리해야 한다.
먼저 데이터에 Nan이 있는지 확인해보자.
>>> df.isna().sum()
Country 0
Age 1
Salary 1
Purchased 0
dtype: int64
Age 컬럼과 Salary에 각 1개의 Nan이 있는 것을 확인할 수 있다.
이를 처리 해보자.
Nan이 있는 행 삭제 dropna()
df = df.dropna()
df

dropna()를 해서 Nan이 있는 행을 삭제할 수 있다.
Nan을 각 컬럼의 평균 값으로 변경
df[ 컬럼명 ].fillna( df[ 컬럼명 ].mean() )
df[['Age', 'Salary']] = df[['Age', 'Salary']].fillna(df[['Age', 'Salary']].mean())
df

'Python > Machine Learning' 카테고리의 다른 글
| 데이터 전처리 기초 #5 sklearn라이브러리를 이용해 Dataset 나누기 (Training,Test) (0) | 2022.05.09 |
|---|---|
| 데이터 전처리 기초 #4 피처 스케일링 Feature Scaling(표준화, 정규화) (0) | 2022.05.09 |
| 데이터 전처리 기초 #3 sklearn(사이킷런) 라이브러리를 이용해 카테고리컬 데이터 처리하기 (레이블 인코딩, 원 핫 인코딩) (0) | 2022.05.06 |
| 데이터 전처리 기초 #2 데이터(X)와 레이블(y)로 나누기 (0) | 2022.05.06 |
| 머신 러닝(Machine Learning)의 이해 (0) | 2022.05.06 |