'pandas' 태그의 글 목록

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

[Python] Pandas 에서 시간 처리 [생성(datetimeIndex() , to_datetime()), 연산, 인덱싱]

import pandas as pd Pandas에서 시간처리를 위한 datetime64를 생성하는 법은 datetimeIndex() , to_datetime() 2가지가 있다. pandas.datetimeIndex() >>> dates = ['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'] >>> dates ['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'] >>> pd.to_datetime(dates) DatetimeIndex(['2022-01-04', '2022-01-07', '2022-01-08', '2022-01-22'], dtype='datetime64[ns]', freq=None) pandas...

Python/Pandas 2022. 5. 6. 15:21

[Python] Pandas pivot_table() 생성하기

import pandas as pd import numpy as np pivot_table() 피봇팅한다는 것은 즉 컬럼의 값을 열로 만드는것을 말한다. pivot_table()은 해당 컬럼의 데이터들에 중복데이터들이 있어도, 이를 하나의 인덱스로 합치고 수치 데이터들의 평균(디폴트)을 출력한다. 아래와 같은 데이터프레임으로 예를 들어보자. Name으로 피봇팅을 해도 되는지 (즉 카테고리컬 데이터가 맞는지) 확인을 해보자. >>> df['Name'].nunique() 12 df의 총 행은 17개인데 nunique()의 값은 12이기 때문에 Name은 카테고리컬 데이터이다. 평균값으로 피봇테이블 생성 그럼 Name을 기준으로 피봇테이블을 생성해보자. pd.pivot_table(df, index = ['Na..

Python/Pandas 2022. 5. 4. 17:43

[Python] Pandas Dataframe 합치기 concat(), merge()

데이터 프레임 붙이기 concat() 단순히 다른 데이터 프레임을 붙여서 합친다. import pandas as pd df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3]) df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7]) df..

Python/Pandas 2022. 5. 3. 14:22

[Python] Pandas 데이터 정렬하기 sort_values(), sort_index()

import pandas as pd df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df sort_index() 인덱스에 기반하여 정렬한다. # ascending = True면 오름차순, False면 내림차순 df.sort_index() sort_values() 데이터에 기반하여 정렬한다. # 경력을 오름차순으로 정렬 df.sort_values('Years of Experience') # 경력을 내림차순으로 정렬 df.sort_value..

Python/Pandas 2022. 5. 3. 14:05

[Python]Pandas 카테고리컬 데이터 확인하기, 이를 묶어 처리하기 groupby()

groupby() 카테고리컬 데이터의 각 데이터별로 묶어서 처리하는 방법 카테고리컬 데이터인지 알 수 있는 방법은 nunique()와 unique()를 이용하면 된다. # 카테고리컬 데이터 (Categorical Data) # 갯수가 정해져있고 그 안에서 나눌 수 있는 것 >>> df['Year'].nunique() 3 >>> df['Year'].unique() array([1990, 1991, 1992], dtype=int64) df의 행갯수는 8개인데 Year 컬럼의 유니크한 갯수는 3개이다. 그러므로 Year의 데이터는 카테고리컬 데이터이다. # 각 년도'별로' 연봉 총합 구하라 >>> df.groupby('Year')['Salary'].sum() Year 1990 153000 1991 162000..

Python/Pandas 2022. 5. 3. 12:56

[Python] Pandas Dataframe NaN 다루기

items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7}, {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}] df = pd.DataFrame(data = items2, index = ['store 1', 'store 2', 'store 3']) df NaN 이 얼마나 있는지 파악 isna() df.isna() # 각 컬럼별로 NaN의 수 df.isna().sum() # 총..

Python/Pandas 2022. 5. 2. 12:27

[Python] Pandas Dataframe 인덱스, 컬럼명 변경하기(rename()), 컬럼을 인덱스로 사용하기(set_index(),reset_index())

df 인덱스명 변경 # store 3 를 last store 로변경하기 df.rename( index = {'store 3' : 'last store'} ) 컬럼명 변경 # bikes 컬럼을 hat 으로 바꾸고, suits 컬럼은 shoes 로 바꾸기 df.rename ( columns= {'bikes' : 'hat', 'suits' : 'shoes'}) 컬럼을 인덱스로 사용 set_index() df # name 컬럼을 인덱스로 사용하고 싶을 때 # set_index()를 사용한다 # inplace = True => 원본 데이터 변경 여부 df.set_index('name', inplace = True) df 사용했던 컬럼을 원래대로 되돌리기 reset_index() df.reset_index(inpl..

Python/Pandas 2022. 5. 2. 12:08

[Python] Pandas Dataframe 열과 행 생성, 삭제(append(), drop())

Pandas Dataframe 새로운 컬럼 생성 df df['shirts'] = [15, 2] df # pants 컬럼의 데이터와 shirts 컬럼의 데이터를 합해서, suits 컬럼을 만들기 df['pants'] + df['shirts'] df['suits'] = df['pants'] + df['shirts'] df 새로운 열 생성 append() # 새로 추가할 데이터 프레임을 만든다 new_item = [{'bikes':20, 'pants':30, 'watches':35, 'glasses':4}] new_store = pd.DataFrame(data = new_item, index= ['store 3']) new_store # 새로운 데이터인 store 3 를 원래 데이터 df에 추가한다. df =..

Python/Pandas 2022. 5. 2. 11:48

[Python] Pandas Dataframe 생성, csv읽기, 저장하기, 데이터 액세스

Pandas Dataframe 생성 >>> import pandas as pd # 딕셔너리 형태로 만들기 >>> items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} >>> df = pd.DataFrame(data= items) >>> df 왼쪽 진한 글자가 인덱스 위쪽 진한 글자는 컬럼 안에 있는 데이터는 밸류 NaN 은 해당 항목에 값이 없음을 뜻한다. (Not a Number) (numpy.nan 과 같다.) >>> df.index I..

Python/Pandas 2022. 5. 2. 11:14

개발공부

목록pandas (9)

개발공부

티스토리툴바