| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- pandas
- matplotlib
- sklearn
- 최댓값
- append()
- Dictionary
- len()
- dendrogram
- DataAccess
- Python
- wcss
- count()
- 반복문
- 분류 결과표
- analizer
- list
- data
- elbow method
- numpy
- DataFrame
- insert()
- del
- hierarchical_clustering
- 최솟값
- nan
- IN
- string
- function
- 덴드로그램
- Machine Learning
- Today
- Total
목록Python (143)
개발공부
https://mscha.tistory.com/68 [Machine Learning] 데이터 분리하기 #1 Nan처리하기 학습을 위해 데이터를 Train과 Test 영역으로 나눠보자. 아래와 같은 데이터 프레임이 있다. 먼저 해당데이터에 Nan이 있으면 나중에 학습을 하는데 문제가 발생하니 여러가지 방법으로 Nan을 처리 mscha.tistory.com 데이터 분리하기 #1 에서 Nan을 dropna()하는 방식으로 데이터프레임을 가공하여 아래와 같은 df를 얻었다. 우리가 원하는 것은 Country, Age, Salary에 따라 Purchased가 Yes인지 No인지를 예측하는 것이다. Country, Age, Salary를 학습데이터 X Purchased를 그에 따른 레이블 y로 만들어 보겠다. X ..
학습을 위해 데이터를 Train과 Test 영역으로 나눠보자. 아래와 같은 데이터 프레임이 있다. 먼저 해당데이터에 Nan이 있으면 나중에 학습을 하는데 문제가 발생하니 여러가지 방법으로 Nan을 처리해야 한다. 먼저 데이터에 Nan이 있는지 확인해보자. >>> df.isna().sum() Country 0 Age 1 Salary 1 Purchased 0 dtype: int64 Age 컬럼과 Salary에 각 1개의 Nan이 있는 것을 확인할 수 있다. 이를 처리 해보자. Nan이 있는 행 삭제 dropna() df = df.dropna() df dropna()를 해서 Nan이 있는 행을 삭제할 수 있다. Nan을 각 컬럼의 평균 값으로 변경 df[ 컬럼명 ].fillna( df[ 컬럼명 ].mean()..
머신러닝의 이해 머신러닝의 세분화 머신러닝은 크게 supervised와 unsupervised로 나눌 수 있다. supervised는 예를 들어 동물 사진을 주면 동물의 종을 맞추는 프로그램을 만든다고 할 때, 우리는 이를 학습 시키기위해 동물의 사진 데이터와 그에 매핑되는 동물의 종 데이터가 필요하다. 위와 같이 데이터와 그에 매핑되는 레이블이 있는 데이터를 학습시키는 것을 supervised라고 한다. unsupervised는 반대로 label이 없는 데이터를 가지고, 특정 기준에 따라 Clustering(군집) 하는 것이다. supervised는 또 Classification과 Prediction으로 나눌 수 있다. Classification은 데이터를 가지고 결과가 분류된 것들중 어떤것인지 구분하..
import pandas as pd Pandas에서 시간처리를 위한 datetime64를 생성하는 법은 datetimeIndex() , to_datetime() 2가지가 있다. pandas.datetimeIndex() >>> dates = ['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'] >>> dates ['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'] >>> pd.to_datetime(dates) DatetimeIndex(['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'], dtype='datetime64[ns]', freq=None) pandas...
Numpy 시간 처리 방법 np.datetime64 기존의 파이썬 datetime 을 보강하기 위해, date 의 array 도 처리할 수 있게 numpy 에서 64-bit 로 처리하도록 라이브러리를 강화했다. 생성은 아래와 같이 할 수 있다. >>> import numpy as np >>> any_date = np.array('2022-05-11', dtype = np.datetime64) >>> any_date array('2022-05-11', dtype='datetime64[D]') 날짜 연산 넘파이의 datetime64는 날짜 연산이 단순하게 + - 연산자를 이용하면 돼서 간편하다. >>> any_date + 10 numpy.datetime64('2022-05-21') >>> any_date -..
import pandas as pd import numpy as np pivot_table() 피봇팅한다는 것은 즉 컬럼의 값을 열로 만드는것을 말한다. pivot_table()은 해당 컬럼의 데이터들에 중복데이터들이 있어도, 이를 하나의 인덱스로 합치고 수치 데이터들의 평균(디폴트)을 출력한다. 아래와 같은 데이터프레임으로 예를 들어보자. Name으로 피봇팅을 해도 되는지 (즉 카테고리컬 데이터가 맞는지) 확인을 해보자. >>> df['Name'].nunique() 12 df의 총 행은 17개인데 nunique()의 값은 12이기 때문에 Name은 카테고리컬 데이터이다. 평균값으로 피봇테이블 생성 그럼 Name을 기준으로 피봇테이블을 생성해보자. pd.pivot_table(df, index = ['Na..
1. 구글 클라우드의 MAPS API 페이지로 이동한다. https://cloud.google.com/maps-platform/?hl=ko Google Maps Platform - Location and Mapping Solutions Create real world and real time experiences for your customers with dynamic maps, routes & places APIs from Google Maps Platform’s location solutions. mapsplatform.google.com 2. 콘솔로 이동 => Geocoding API 선택 => 사용자인증정보 에서 API 키 생성 이제 받은 API KEY를 가지고 원하는 장소의 위치(위도, 경도) ..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb 아래는 차량의 메이커, 모델, 년도, 분류, 연비 등등을 나타낸 데이터 프레임이다. 두 컬럼간의 관계를 표현하는 차트 1. matplotlib 의 scatter 사용 displ과 comb의 상관관계를 표현하라 plt.scatter(data = df, x = 'displ', y = 'comb') plt.title('Displ Vs Comb') plt.xlabel('Displacement (L)') plt.ylabel('Combined Fuel Etf (mpg)') plt.show() 2. seaborn 의 regplot 을 이용하는 방법 reg..
Matpotlib의 subplot을 사용하면 각각 다른 차트들을 행과 열에 맞춰서 배치할 수 있다. 아래는 포켓몬 세대와 종에 대한 정보가 담겨있는 데이터 프레임이다. speed 값의 구간에 따른 데이터의 갯수에 대한 히스토그램을 bins(구간)가 10과 20에 대해 그리면 아래와 같이 그릴 수 있다. import matplotlib as plt # 하나에 여러개의 plot을 그린다. plt.figure(figsize= (12, 5)) plt.subplot(1, 2, 1) # subplot(행, 열, 번호) plt.hist(data = df, x = 'speed', rwidth = 0.8, bins = 10) plt.subplot(1, 2, 2) plt.hist(data = df, x = 'speed',..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline Histogram(히스토그램) - 구간을 설정하여,해당 구간에 포함되는 데이터가 몇개인지 세는 차트를 히스토그램이라한다. - 구간을, 전문용어로 bin 이라고 부른다. - bin이 여러개면, bins 라고 부른다 - 히스토그램의 데이터는 동일하지만, 구간을 어떻게 나누냐에 따라서, 차트 모양이 여러가지로 나온다. 아래는 포켓몬 세대와 종에 대한 정보가 담겨있는 데이터 프레임이다. speed 컬럼을 분석하면 아래와 같은 값이 나온다. >>> df['speed'].describe() count 807.000000..