개발공부

데이터 전처리 기초 #5 sklearn라이브러리를 이용해 Dataset 나누기 (Training,Test) 본문

Python/Machine Learning

데이터 전처리 기초 #5 sklearn라이브러리를 이용해 Dataset 나누기 (Training,Test)

mscha 2022. 5. 9. 17:40

이제 앞서 만들었던 데이터들을 Training용과 Test용으로 나눠보자.

>>> from sklearn.model_selection import train_test_split

# test_size는 0 ~ 1 으로 설정할 수 있고, test용 데이터의 비율을 설정할 수 있다.
# random_state는 random.seed와 같은 역할
>>> X_train, X_test, y_train, y_test = train_test_split(
                                        X, y, test_size=0.2, random_state=3 )
>>> X_train                                        
array([[1.        , 0.        , 0.        , 0.34782609, 0.28571429],
       [0.        , 1.        , 0.        , 1.        , 1.        ],
       [0.        , 0.        , 1.        , 0.47826087, 0.37142857],
       [0.        , 0.        , 1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        , 0.73913043, 0.68571429],
       [0.        , 1.        , 0.        , 0.13043478, 0.17142857]])
       
>>> y_train
array([1, 0, 0, 1, 0, 0])

>>> X_train.shape
(6, 5)

>>> X_test
array([[1.        , 0.        , 0.        , 0.91304348, 0.88571429],
       [1.        , 0.        , 0.        , 0.43478261, 0.54285714]])
       
>>> y_test
array([1, 1])