Lecture 5. 시계열 데이터 시각화
1. Y와 X의 관계를 보기위해, 특성 파악 2. 알고리즘의 결과를 냉정하게 판단하기 위해 Histogram 히스토그램 raw_fe.hist(bins=20, grid=True, figsize=(16,12)) plt.show() Boxplot 박스플랏 raw_fe.boxplot(column='count', by='season', grid=True, figsize=(12,5)) plt.ylim(0,1000) Scatter plot 산점도 raw_fe[raw_fe.workingday == 0].plot.scatter(y='count', x='Hour', c='temp', grid=True, figsize=(12,5), colormap='viridis') plt.show() 데이터 갯수 세기 raw_fe['we..
2021. 3. 15.
Lecture 4. 시계열 데이터 분리 및 회귀분석
데이터 준비 - 비시계열 vs 시계열 비시계열 - Simple, K-fold, Holdout 시계열 - Time series cross-validation ( 단기, 장기 ) 회귀분석 (1) 검증지표 R^2 t-검정 : 독립변수와 종속변수 간의 선형관계 신뢰성 정도 F-검정 : 독립변수의 분산과 종속변수의 분산간의 관계를 사용해 성능 평가 AIC, BIC : 정보량 기준, 값이 작을수록 올바른 모형 (2) 잔차진단 회귀분석 잔차진단 가정 - 잔차 분포가 정규성, 독립성, 등분산성 시계열 회귀 잔차진단 - 정상성(백색잡음), 정규분포, 자기상관(시간흐름에서 독립적), 등분산성 시계열 데이터 분리 - 시간순 def datasplit_ts(raw, Y_colname, X_colname, criteria): r..
2021. 3. 13.