Lecture 14. Kaggle 자전거 수요 예측 (RF/SARIMA)
머신러닝 분석으로 수요 예측 시계열 분석으로 수요 예측 - SARIMA 0. 데이터 로드 Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 2년치 데이터로 시간당 데이터 축적 Y는 count, 즉 총 렌탈횟수 예측하기 1. 데이터 전처리 raw_all = pd.read_csv('./Bike_Sharing_Demand_Full.csv') # Feature Engineering # to_datetime, asfreq, seasonal_decompose(trend, seasonal), fill_na, # Day ,Week, diff, Year, Quater, Month, Hour, DayofWeek, lag1, lag2 .. ..
2021. 4. 3.
Lecture 11. 단순 선형확률과정
일반 선형확률과정 시계열 데이터가 가우시안 백색잡음의 현재값과 과거값의 선형조합 WN, MA, AR, ARMA, ARIMA, SARIMA 1. WN (White Noise) 잔차들은 정규분포, 평균 0, 일정한 분산, 가져야 함 시간의 흐름에 따라 상관성이 없어야 함 (cov = 0, autocorrelation = 0) : ACF로 확인 강정상 과정의 대표적 예시 가우시안 백색잡음, 베르누이 백색잡음 2. MA (Moving Average) 차수가 유한한 (q) 가우시안 백색잡음의 선형조합 Trend-cycle ACF가 q+1항부터 0으로 수렴 PACF가 지수적 감소, 진동하는 사인 형태 # ARMA(0,1) = MA(1) ar_params = np.array([]) #0 ma_params = np.a..
2021. 3. 29.
Lecture 5. 시계열 데이터 시각화
1. Y와 X의 관계를 보기위해, 특성 파악 2. 알고리즘의 결과를 냉정하게 판단하기 위해 Histogram 히스토그램 raw_fe.hist(bins=20, grid=True, figsize=(16,12)) plt.show() Boxplot 박스플랏 raw_fe.boxplot(column='count', by='season', grid=True, figsize=(12,5)) plt.ylim(0,1000) Scatter plot 산점도 raw_fe[raw_fe.workingday == 0].plot.scatter(y='count', x='Hour', c='temp', grid=True, figsize=(12,5), colormap='viridis') plt.show() 데이터 갯수 세기 raw_fe['we..
2021. 3. 15.