본문 바로가기

Archive109

Lecture 10. 타겟 데이터 정상성 변환 정상성 (Stationarity) 평균, 분산, 공분산이 시간의 흐름에 따라 변하지 않음 약정상 - 두 변수 비교 𝐸(𝑋𝑡) = 𝜇 for all time 𝑡 (The first moment estimation) 𝑉𝑎𝑟(𝑋𝑡) = 𝐸(𝑋^2𝑡) − 𝐸(𝑋𝑡)^2 covariance just depends on ℎ. 강정상 예시 - White noise 약정상은 두 변수로 비교했다면, 강정상은 세 변수부터 모든 변수들의 정상성을 확인함 비정상 확률과정 예시 - Random walk 일차모멘트, 이차모멘트가 변화 용어 Stationary Process: 정상성인 시계열데이터를 발생시키는 데이터셋(프로세스) Stationary Model: 정상성인 시계열데이터를 설명하는 모델 Trend Stationary: .. 2021. 3. 27.
Lecture 9. 시계열 머신러닝 알고리즘 정규화 회귀분석 알고리즘 정규화 : overfitting 을 막기 위해 파라미터 값을 줄이는 것, 계수의 크기를 제한하는 방법 파라미터 값에 제약을 줌 1. Standard Regression 식을 최소화하는 베타값을 찾아야 함 - RSS 최소화 2. Lidge Regression RSS + 페널티식 (제곱합) 베타를 제곱합하므로 큰 베타값에 민감하게 반응함 큰 베타값은 줄여야하므로 하이퍼파라미터(람다)를 크게 하면 가중치값이 작아짐 -> 베타에 0 가까운 값 부여 하이퍼파라미터를 작게 하면 가중치값이 커짐 베타 스케일을 조정해 현실성있는 계수 추정 모든 변수를 사용하기 때문에 계수가 작아지고 모형 복잡도가 줄어들며 계수가 많을수록 효과적이진 않지만 다중공선성을 방지할 수 있음 from sklearn.l.. 2021. 3. 27.
Lecture 8. 시계열 데이터 전처리 Condition Number Condition number가 클수록 변수들간의 scaling이 필요하거나 다중공선성이 나타남을 의미함 Condition number를 감소시켜야 함 1. Scaling 2. 다중공선성 제거 - VIF, PCA를 통해 변수 선택 3. 의존성이 높은 변수들에 패널티를 주는 정규화 Scaling 스케일링을 통해 변수간의 범위 설정 1. StandardScaler() 각 feature가 정규분포를 따른다는 가정 sklearn.preprocessing.StandardScaler().fit() sklearn.preprocessing.StandardScaler().transform() sklearn.preprocessing.StandardScaler().fit_transform() .. 2021. 3. 18.
Lecture 7. 잔차진단 검증지표 -> 수치 잔차진단 -> 시각화, 통계량 White Noise 백색잡음 2가지의 속성을 만족해야 하며 하나라도 만족하지 못하면 모델이 개선의 여지가 있음을 의미 f(x) + e 에서 잔차인 e가 특정한 패턴을 보이지 않아야하며 잔차의 모습이 whitenoise 이어야 한다. 1) 잔차 ~ i.i.d 잔차들은 정규분포이고 평균 0과 일정한 분산을 가져야 함 잔차들끼리는 독립이어야 한다. 2) 잔차들간의 상관관계 잔차들이 시간의 흐름에 따라 상관성이 없어야 함 Autocorrelation 자기상관함수 : 같은 변수, 자기 자신에 대한 상관관계 Partial Autocorrelation Function 편자기상관함수 : 자기상관함수에서 시간 사이의 상관성을 제거한 상관함수 SARIMA가 자기상관관계가.. 2021. 3. 16.
Lecture 6. 분석성능 확인 검증지표 R-squared(R^2) : (−∞,1] Mean Absolute Error(MAE) : [0,+∞) Mean Squared Error(MSE) : [0,+∞) Mean Squared Logarithmic Error(MSLE) : [0,+∞) Median Absolute Error(MedAE) : [0,+∞) Root Mean Squared Error(RMSE) : [0,+∞) Mean Absolute Percentage Error(MAPE) : [0,+∞) Mean Percentage Error(MPE) : (−∞,+∞) MAE = abs(Y_train.values.flatten() - pred_tr_reg1).mean() MSE = ((Y_train.values.flatten() - pre.. 2021. 3. 16.
Lecture 5. 시계열 데이터 시각화 1. Y와 X의 관계를 보기위해, 특성 파악 2. 알고리즘의 결과를 냉정하게 판단하기 위해 Histogram 히스토그램 raw_fe.hist(bins=20, grid=True, figsize=(16,12)) plt.show() Boxplot 박스플랏 raw_fe.boxplot(column='count', by='season', grid=True, figsize=(12,5)) plt.ylim(0,1000) Scatter plot 산점도 raw_fe[raw_fe.workingday == 0].plot.scatter(y='count', x='Hour', c='temp', grid=True, figsize=(12,5), colormap='viridis') plt.show() 데이터 갯수 세기 raw_fe['we.. 2021. 3. 15.
Lecture 4. 시계열 데이터 분리 및 회귀분석 데이터 준비 - 비시계열 vs 시계열 비시계열 - Simple, K-fold, Holdout 시계열 - Time series cross-validation ( 단기, 장기 ) 회귀분석 (1) 검증지표 R^2 t-검정 : 독립변수와 종속변수 간의 선형관계 신뢰성 정도 F-검정 : 독립변수의 분산과 종속변수의 분산간의 관계를 사용해 성능 평가 AIC, BIC : 정보량 기준, 값이 작을수록 올바른 모형 (2) 잔차진단 회귀분석 잔차진단 가정 - 잔차 분포가 정규성, 독립성, 등분산성 시계열 회귀 잔차진단 - 정상성(백색잡음), 정규분포, 자기상관(시간흐름에서 독립적), 등분산성 시계열 데이터 분리 - 시간순 def datasplit_ts(raw, Y_colname, X_colname, criteria): r.. 2021. 3. 13.
Lecture 3. 시계열 데이터 패턴 추출 0. 데이터 로드 케글 데이터 - 자전거 수요 www.kaggle.com/c/bike-sharing-demand/data Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com raw_all = pd.read_csv('Bike_Sharing_Demand_Full.csv') raw_all 1. 빈도(Frequency) 빈도를 시간으로 설정한 후, NaN 값은 앞의 값으로 채운다. raw_all.set_index('datetime', inplace=True) raw_all = raw_all.asfreq('H', method='ffill') 2. 추세(Trend, 𝑇𝑡) additive 모형으로 데이터 분해 : trend + sea.. 2021. 3. 13.
Lecture 2. 시계열 알고리즘 알고리즘 선택 방법 1) 문제가 어디에 속하는지 -> "분석기획(가설/방향)" 가능 2) 알고리즘마다 입력은 무엇인지 -> "데이터전처리(준비)" 가능 3) 알고리즘마다 출력은 무엇인지 -> "결과해석(설명/검증)" 가능 Time series analysis 이 주로 사용하는 Algorithms 1) Regression 2) Regularization 3) Clustering 시계열에서 고려해야할 대표적 성분들 - Feature Engineering 방법 7가지 빈도(Frequency): 계절성 패턴(Seasonality)이 나타나기 전까지의 데이터 갯수로 사람이 정해야 함 (일,주,월,연 등) 추세(Trend, 𝑇𝑡): 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seaso.. 2021. 3. 13.
Lecture 1. 시계열 데이터 기초 횡단면 데이터 시계열 데이터 시계열 횡단면 데이터 패널 데이터 특정시점 + 다수독립변수 다수시점 + 특정독립변수 다수독립변수 + 다수시점 다수독립변수 + 다수시점 (동일 변수 및 시점) 값 독립적, 모집단 중 특정 시점 표본추출 값 Serial-correlation/Trend/Seasonality 등 시점/변수 불일치로 공백 가능 시점/변수 일치로 연구자들이 가장 선호 시계열분석 Target 데이터: 최소 시계열 / 시계열 횡단면 / 패널 데이터 (횡단면 데이터 - 시계열 분석 불가) 시계열분석 시간축: 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 통계 기본용어 중심 통계량 - 평균, 중앙값, 최빈값 변동 통계량 - 범위, 편차, 변동, 분산, 표준편차 형태 통계량 - 왜도,.. 2021. 3. 12.