Python과 머신러닝(62)
-
[Python.TitanicOverview] 데이터 전처리 2 - 결측치 처리
1. 결측치 처리 예제 In [1]:import pandas as pd import numpy as np In [2]:#https://chrisalbon.com/python/data_wrangling/pandas_missing_data/ raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'], 'age': [42, np.nan, 36, 24, 73], 'sex': ['m', np.nan, 'f', 'm', 'f'], 'preTestScore': [4, np.nan, np.nan, 2, 3], 'postTestScore': [25, np...
2021.02.26 -
[Python.TitanicOverview] 데이터 입력 및 전처리
1. 데이터 입력 In [1]:import pandas as pd import os import matplotlib.pyplot as plt import numpy as np import seaborn as sns In [2]:sns.set(style='white') #white background style for seaborn plots sns.set(style='whitegrid', color_codes=True) In [3]:DATA_DIR='titanic' os.listdir(DATA_DIR) Out[3]:['test.csv', 'train.csv'] In [4]:data_files = reversed([os.path.join(DATA_DIR, filename) for filename in os..
2021.02.25 -
[Python.TimeSeries] Date와 DateTime 심화 - Rolling and Shift
0. 이전 포스트 2021/02/22 - [Python과 머신러닝/TimeSeries & DateTime] - [Python.TimeSeries] Date와 DateTime 2021/02/23 - [Python과 머신러닝/TimeSeries & DateTime] - [Python.TimeSeries] Date와 DateTime 심화 - Resample, Groupby 1. Data Input In [1]:import pandas as pd import os In [2]:df = pd.read_csv('bike_demand_train.csv', parse_dates=['datetime']) df.set_index('datetime', inplace=True) df Out[2]: 시계열 데이터를 분석하다 보..
2021.02.24 -
[Python.TimeSeries] Date와 DateTime 심화 - Resample, Groupby
0. 이전 포스트 2021/02/22 - [Python과 머신러닝/TimeSeries & DateTime] - [Python.TimeSeries] Date와 DateTime 1. BikeDemand Data 받아오기 In [1]:import pandas as pd import os In [2]:df = pd.read_csv('bike_demand_train.csv', parse_dates=['datetime']) df Out[2]: www.kaggle.com/c/bike-sharing-demand/data?select=train.csv에서 데이터를 다운받아서 csv를 읽어오면 다음과 같이 데이터가 열린다. parse_dates=['datetime'] : 'datetime' Series는 날짜/시간 데이터..
2021.02.23 -
[Python.TimeSeries] Date와 DateTime
1. Date와 DateTime이란? Data 분석의 핵심적인 요소는 시간이다. 예를 들어 한 기업의 주가를 예측하는 데이터 모델을 만든다고 했을 때, 지난달의 주가는 어떻게 움직였는지를 볼 필요가 있고, 작년 동기에는 어떻게 바뀌었는지 확인이 필요하다. 이 외에도 동기대비와 같이 시간을 기반으로 데이터를 분석하고 비교하려는 수요가 많기 때문에, Pandas는 Date와 DateTime이라는 class를 통해서 날짜/시간 관련 특화 기능을 제공한다. 즉, Date/DateTime은 Pandas가 제공하는 Python class이고, 이는 날짜/시간 관련 연산에 최적화된 기능을 제공한다. 2. Date 예제 In [1]:from datetime import datetime date_str='180919' ..
2021.02.22 -
[Python.Seaborn] Predefined Plots 5 - Pair Plot과 LM Plot
0. 이전 포스트 2021/02/06 - [Python과 머신러닝/MatPlotLib 데이터 시각화] - [Python.Seaborn] Predefined Plots 1 - Box Plot, Violin Plot, Swarm Plot 2021/02/10 - [Python과 머신러닝/MatPlotLib 데이터 시각화] - [Python.Seaborn] Predefined Plots 2 - PointPlot, RegPlot, subplots 2021/02/11 - [Python과 머신러닝/MatPlotLib 데이터 시각화] - [Python.Seaborn] Predefined Plots 3 - Predefined Multiple Plots - RelPlot, CatPlot 2021/02/15 - [Pytho..
2021.02.21