개발공부

데이터 전처리 기초 #2 데이터(X)와 레이블(y)로 나누기 본문

Python/Machine Learning

데이터 전처리 기초 #2 데이터(X)와 레이블(y)로 나누기

mscha 2022. 5. 6. 17:45

https://mscha.tistory.com/68

 

[Machine Learning] 데이터 분리하기 #1 Nan처리하기

학습을 위해 데이터를 Train과 Test 영역으로 나눠보자. 아래와 같은 데이터 프레임이 있다. 먼저 해당데이터에 Nan이 있으면 나중에 학습을 하는데 문제가 발생하니 여러가지 방법으로 Nan을 처리

mscha.tistory.com

데이터 분리하기 #1 에서 Nan을 dropna()하는 방식으로 데이터프레임을 가공하여 아래와 같은 df를 얻었다.

 

우리가 원하는 것은 Country, Age, Salary에 따라 Purchased가 Yes인지 No인지를 예측하는 것이다.

 

Country, Age, Salary를 학습데이터 X

Purchased를 그에 따른 레이블 y로 만들어 보겠다.

 

X = df.loc[:, 'Country' : 'Salary']
X

y = df['Purchased']
y