본문 바로가기

Analysis/Time series20

Lecture 19. 딥러닝 예측 실습 0. 데이터 형태 비트코인 가격만 있는 데이터 60일치 데이터로 예측 목표 (1) 데이터 정제 # Parameters criteria = '2020-01-01' scaler = preprocessing.MinMaxScaler() sequence = 60 batch_size = 32 epoch = 10 verbose = 1 dropout_ratio = 0 # Train & Test Split train = raw_all.loc[raw_all.index = criteria,:] print('Train_size:', train.shape, 'Test_size:', test.shape) 2020-01-01 기준으로 train,.. 2021. 5. 4.
Lecture 18. 시계열 딥러닝 알고리즘 1. 시계열 회귀분석 은닉층이 없고 입력값과 출력값의 관계가 다이렉트로 연결 모델 개수는 1개의 회귀분석 설명 가능 2. 딥러닝 입력값과 출력값이 직접적으로 연결되지 못하고 복잡한 비선형성을 포함 2개 이상(은닉층과 노드 갯수만큼)의 회귀분석 설명 불가능 사람이 설정해야하는 하이퍼파라미터가 많음 3. 시계열분석에서 딥러닝 적용 필요성 (1) 데이터에서 자동으로 feature 추출하고 학습 가능 (2) 여러 X와 여러 Y 가능 (3) 길이가 긴 sequence 패턴도 추출 가능 4. 시계열 딥러닝 알고리즘 (RNN, LSTM, GRU) (1) CNN 비시계열 딥러닝, MLP 기반 이미지나 영상에서의 인식이나 분류 문제 등에서 뛰어난 결과 입력된 이미지보다 더 큰 이미지로 손쉽게 확장될 수 있는 특징 YOL.. 2021. 5. 2.
Lecture 17. 비선형 확률과정 1. 상태 공간 모형 (State Space Models) 시계열 생성 구조를 (1) 관측식과 (2) 상태 전이식 으로 정의하는 시계열 모형 (1) 관측식(Observation Equation) 현재 상태 x(t) 와 잡음 v(t) 에 의해 실제로 측정가능한 y(t) 를 생성하는 관계식 (2) 상태 전이식 (State Transition Equation) 이전 상태 x(t-1) 와 현재 생성된 잡음 w(t) 에 의해 현재 상태 x(t) 가 생성되는 관계식 (3) 동적 시스템(Dynamic System) 입력 시계열을 받아 출력 시계열을 내놓는 시스템 (예) ARMA 모형 - 백색잡음 𝜖t를 입력받아 yt를 출력하는 동적 시스템 (4) 상태 변수(State Variable) 동적 시스템의 현재 상태를 정의.. 2021. 4. 6.
Lecture 16. 다변량 선형확률과정 Univariate, 단변량 선형확률과정은 종속변수 Y가 독립변수들에만 영향 받는다고 가정 현실적으로는 종속변수와 독립변수는 상호 영향을 주기에 어떤 것이 종속변수로 적합한가에 대한 논의 1. VAR 벡터자기회귀 모형 Vector Autoregressive Model VAR(p)로 변환된 종속변수로 식을 표현 (1) VAR Equation (2) Impulse Response Function 임펄스 반응 함수 VAR 모형을 여러 시계열 상관관계를 통해 각 변수가 다른 변수에 어떤 영향을 주는지 임펄스 반응 함수로 확인 다른 시계열에 미치는 영향을 시간에 따라 표시 (3) VAR 실습- 유사한 추세를 가진 데이터 # VAR 모형적합 fit = sm.tsa.VAR(simul_values).fit() disp.. 2021. 4. 5.
Lecture 15. Kaggle 자전거 수요 예측 (SARIMAX / Auto-ARIMA) Lecture 14. Kaggle 자전거 수요 예측 (RF/SARIMA) 머신러닝 분석으로 수요 예측 시계열 분석으로 수요 예측 - SARIMA 0. 데이터 로드 Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 2년치 데이터로 시간당 데이터 축적 Y는 count,.. 5ohyun.tistory.com 0. 데이터 로드 1. 데이터 전처리 2. 데이터 분석 (3) SARIMAX 시계열 분석으로 수요 예측 - 독립변수 일부 반영 (Colab) Random Forest에서 feature importances가 높게 나온 8가지 변수 반영 Local에서는 에러남 (LinAlgError: LU decomposition error.. 2021. 4. 5.
Lecture 14. Kaggle 자전거 수요 예측 (RF/SARIMA) 머신러닝 분석으로 수요 예측 시계열 분석으로 수요 예측 - SARIMA 0. 데이터 로드 Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 2년치 데이터로 시간당 데이터 축적 Y는 count, 즉 총 렌탈횟수 예측하기 1. 데이터 전처리 raw_all = pd.read_csv('./Bike_Sharing_Demand_Full.csv') # Feature Engineering # to_datetime, asfreq, seasonal_decompose(trend, seasonal), fill_na, # Day ,Week, diff, Year, Quater, Month, Hour, DayofWeek, lag1, lag2 .. .. 2021. 4. 3.
Lecture 13. 선형확률과정 분석실습 선형확률과정 분석 사이클 3~5단계 자동화 1. 데이터 전처리 및 시각화를 통해 Outlier 확인/변경/제거 2. 비정상 과정에서 정상 과정 추출 - 결정론적 추세나 확률적 추세가 있는지 확인 결정론적 추세는 회귀분석, 다항식 등으로 모형화 후 이를 분리 확률적 추세(ARIMA 모형) 경우에는 ADF(Augmented Dickey Fuller) 검정을 사용하여 적분차수로 차분 3. 정규성 확인 - 정규성 검정을 통해 자료의 분포가 정규 분포인지 확인 일반 선형 확률 과정인 경우에는 전체 시계열이 가우시안 백색 잡음의 선형 조합으로 이루어지기 때문에 시계열 자체도 가우시안 정규 분포 ARIMA 모형 등의 일반 선형 확률 과정으로 모형화하려면 우선 정규성 검정(Normality Test)을 사용하여 분포가.. 2021. 4. 3.
Lecture 12. 적분 선형확률과정 1. ARIMA (Auto-Regressive Integrated Moving Average) 1 이상의 추세차분이 적용(d>=1)된 Yt가 AR(p)와 MA(q)의 선형조합 Yt는 단위근 가진 비정상성, d번 차분한 Yt는 정상성 데이터 차분해야 정상성이 되는 Yt는 lag가 증가해도 ACF가 1에 가까워 쉽게 감소하지 않음 c 파라미터 (상수항) : 이론 수식 복잡성으로 생략 가능 d 파라미터 (차분) : 예측 구간추정범위를 급격히 상승, 과차분은 MA모형을 생성 -> ACF/PACF 증가 (1) ARIMA(0.0.0) : WN (2) ARIMA(0,1,0) : Random Walk (3) ARIMA(p,0,0) = AR(p) (4) ARIMA(0,0,q) = MA(q) (5) p=0, ARIMA(0.. 2021. 4. 1.
Lecture 11. 단순 선형확률과정 일반 선형확률과정 시계열 데이터가 가우시안 백색잡음의 현재값과 과거값의 선형조합 WN, MA, AR, ARMA, ARIMA, SARIMA 1. WN (White Noise) 잔차들은 정규분포, 평균 0, 일정한 분산, 가져야 함 시간의 흐름에 따라 상관성이 없어야 함 (cov = 0, autocorrelation = 0) : ACF로 확인 강정상 과정의 대표적 예시 가우시안 백색잡음, 베르누이 백색잡음 2. MA (Moving Average) 차수가 유한한 (q) 가우시안 백색잡음의 선형조합 Trend-cycle ACF가 q+1항부터 0으로 수렴 PACF가 지수적 감소, 진동하는 사인 형태 # ARMA(0,1) = MA(1) ar_params = np.array([]) #0 ma_params = np.a.. 2021. 3. 29.
Lecture 10. 타겟 데이터 정상성 변환 정상성 (Stationarity) 평균, 분산, 공분산이 시간의 흐름에 따라 변하지 않음 약정상 - 두 변수 비교 𝐸(𝑋𝑡) = 𝜇 for all time 𝑡 (The first moment estimation) 𝑉𝑎𝑟(𝑋𝑡) = 𝐸(𝑋^2𝑡) − 𝐸(𝑋𝑡)^2 covariance just depends on ℎ. 강정상 예시 - White noise 약정상은 두 변수로 비교했다면, 강정상은 세 변수부터 모든 변수들의 정상성을 확인함 비정상 확률과정 예시 - Random walk 일차모멘트, 이차모멘트가 변화 용어 Stationary Process: 정상성인 시계열데이터를 발생시키는 데이터셋(프로세스) Stationary Model: 정상성인 시계열데이터를 설명하는 모델 Trend Stationary: .. 2021. 3. 27.