본문 바로가기

Analysis38

[sklearn] 교차 검증 모델이 훈련 세트보다 테스트 세트에서 예측을 잘 하는 것이 중요 1. 교차 검증 (Cross-Validation) K-kold가 대표적 - K개의 데이터로 분할 train_test_split 은 무작위로 한번 나누는 것 교차검증은 최악의 경우와 최선의 경우를 짐작 가능하게 함 데이터를 효과적으로 사용 가능, 연산 비용이 늘어남 모델을 만드는 것이 아닌, 잘 일반화될지 평가하는 것 from sklearn.model_selection import cross_val_score cross_val_score( model, X_data, y_data, cv =n ) 적어도 5겹 이상 사용할 것 주로 scores.mean() 으로 평균내어 최종 검증 정확도 사용 계층별 k-겹 사용 from sklearn.model_.. 2021. 5. 11.
[sklearn] 특성 공학 특성 공학 Feature Engineering : 특정 애플리케이션에 가장 적합한 데이터 표현 찾는 것 1. 범주형 변수 One-hot-encoding - value_counts로 unique 값 먼저 확인 pd.get_dummies 는 숫자 범주형 특성은 .astype(str)로 문자열 특성으로 바꿔주어야 함 from sklearn.proprocessing import OneHotEncoder sklearn의 OneHotEncoder(sparse=False)는 모두 범주형이라고 가정, 숫자/문자열 모두 바꿈 ohe.fit_transform(data) 2. 연속형 변수 - 스케일 조정 from sklearn.compose import ColumnTransformer sklearn의 ColumnTransf.. 2021. 5. 11.
[sklearn] 비지도학습 1. EDA 스케일 조정 StandardScaler RobustScaler MinMaxScaler Normalizer 지도 정보를 사용하지 않으므로 비지도 방식 fit_transform은 훈련셋에서, transform은 테스트셋에서 사용 2. 데이터 비지도 변환 차원축소, 특성추출, 매니폴드 학습 - 시각화, 압축, 추가 처리 PCA 주성분 분석 특성들이 통계적으로 상관관계 없도록 데이터셋 회전, 분산이 작은 주성분 덜어냄 특성 개수만큼 주성분 존재 고차원 데이터셋 시각화 주요 상호작용 찾아낼 수 있음 X축 - 첫번째 주성분 / Y축 - 두번째 주성분 두 축을 해석하기가 쉽지가 않음 데이터를 산점도로 시각화 가능 NMF 비음수 행렬 분해 특성 추출 t-SNE 2차원 산점도로 시각화 - 매니폴드 3. 군집.. 2021. 5. 10.
[sklearn] 지도학습 모델의 가정과 매개변수의 의미를 제대로 이해하는 것이 중요 알고리즘 종류 특징 전처리 중요 매개변수 KNN 최근접 이웃 (회귀), (분류) 작은 데이터셋 기본 모델 설명하기 용이 특성이 많을 때는 부적절 희소한 데이터셋에 잘 작동 스케일링 O metric 거리 재는 법 n_neighbors 이웃 수 Linear Model 선형 모형 (회귀) Linear Regression Ridge Lasso (분류) Logistic Regression Linear SVC 첫번째 시도 알고리즘 속도가 빠름 희소한 큰 데이터셋 잘 작동 대용량 데이터셋은 Logistic과 Ridge에 solver ='sag' 옵션 줌 선형 모델 대용량 처리버전으로 나온 SGD회귀/분류 사용 특성이 많을수록 잘 작동 스케일링 O L1,L2 .. 2021. 5. 10.
Lecture 19. 딥러닝 예측 실습 0. 데이터 형태 비트코인 가격만 있는 데이터 60일치 데이터로 예측 목표 (1) 데이터 정제 # Parameters criteria = '2020-01-01' scaler = preprocessing.MinMaxScaler() sequence = 60 batch_size = 32 epoch = 10 verbose = 1 dropout_ratio = 0 # Train & Test Split train = raw_all.loc[raw_all.index = criteria,:] print('Train_size:', train.shape, 'Test_size:', test.shape) 2020-01-01 기준으로 train,.. 2021. 5. 4.
Lecture 18. 시계열 딥러닝 알고리즘 1. 시계열 회귀분석 은닉층이 없고 입력값과 출력값의 관계가 다이렉트로 연결 모델 개수는 1개의 회귀분석 설명 가능 2. 딥러닝 입력값과 출력값이 직접적으로 연결되지 못하고 복잡한 비선형성을 포함 2개 이상(은닉층과 노드 갯수만큼)의 회귀분석 설명 불가능 사람이 설정해야하는 하이퍼파라미터가 많음 3. 시계열분석에서 딥러닝 적용 필요성 (1) 데이터에서 자동으로 feature 추출하고 학습 가능 (2) 여러 X와 여러 Y 가능 (3) 길이가 긴 sequence 패턴도 추출 가능 4. 시계열 딥러닝 알고리즘 (RNN, LSTM, GRU) (1) CNN 비시계열 딥러닝, MLP 기반 이미지나 영상에서의 인식이나 분류 문제 등에서 뛰어난 결과 입력된 이미지보다 더 큰 이미지로 손쉽게 확장될 수 있는 특징 YOL.. 2021. 5. 2.
딥러닝 개념 0. 딥러닝 연속된 여러 개의 층을 가진 인공신경망을 통해 계층적으로 데이터를 학습시키는 방법 Feature Engineering이 자동으로 수행(방향) 1. 역전파 (Back Propagation : BP) 학습을 통해 가중치를 업데이트 처음 설정된 각 노드별 가중치가 우리가 원하는 결과를 만들 수 있도록 계속 수정되는 방향 Activation function중 ReLU 통해 가능해짐 2. 최적화 (Optimization) weight parameter들을 최적화 Cost function을 줄이기 위해 최적의 값을 찾는 방법 ( GD, SGD, Momentum, Adagrad, RMSPop, AdaDelta, Adam, Nadam ) 3. Drop out (성능 개선) 은닉층 뉴런을 무작위로 생략 독립.. 2021. 5. 2.
Lecture 17. 비선형 확률과정 1. 상태 공간 모형 (State Space Models) 시계열 생성 구조를 (1) 관측식과 (2) 상태 전이식 으로 정의하는 시계열 모형 (1) 관측식(Observation Equation) 현재 상태 x(t) 와 잡음 v(t) 에 의해 실제로 측정가능한 y(t) 를 생성하는 관계식 (2) 상태 전이식 (State Transition Equation) 이전 상태 x(t-1) 와 현재 생성된 잡음 w(t) 에 의해 현재 상태 x(t) 가 생성되는 관계식 (3) 동적 시스템(Dynamic System) 입력 시계열을 받아 출력 시계열을 내놓는 시스템 (예) ARMA 모형 - 백색잡음 𝜖t를 입력받아 yt를 출력하는 동적 시스템 (4) 상태 변수(State Variable) 동적 시스템의 현재 상태를 정의.. 2021. 4. 6.
Lecture 16. 다변량 선형확률과정 Univariate, 단변량 선형확률과정은 종속변수 Y가 독립변수들에만 영향 받는다고 가정 현실적으로는 종속변수와 독립변수는 상호 영향을 주기에 어떤 것이 종속변수로 적합한가에 대한 논의 1. VAR 벡터자기회귀 모형 Vector Autoregressive Model VAR(p)로 변환된 종속변수로 식을 표현 (1) VAR Equation (2) Impulse Response Function 임펄스 반응 함수 VAR 모형을 여러 시계열 상관관계를 통해 각 변수가 다른 변수에 어떤 영향을 주는지 임펄스 반응 함수로 확인 다른 시계열에 미치는 영향을 시간에 따라 표시 (3) VAR 실습- 유사한 추세를 가진 데이터 # VAR 모형적합 fit = sm.tsa.VAR(simul_values).fit() disp.. 2021. 4. 5.
Lecture 15. Kaggle 자전거 수요 예측 (SARIMAX / Auto-ARIMA) Lecture 14. Kaggle 자전거 수요 예측 (RF/SARIMA) 머신러닝 분석으로 수요 예측 시계열 분석으로 수요 예측 - SARIMA 0. 데이터 로드 Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 2년치 데이터로 시간당 데이터 축적 Y는 count,.. 5ohyun.tistory.com 0. 데이터 로드 1. 데이터 전처리 2. 데이터 분석 (3) SARIMAX 시계열 분석으로 수요 예측 - 독립변수 일부 반영 (Colab) Random Forest에서 feature importances가 높게 나온 8가지 변수 반영 Local에서는 에러남 (LinAlgError: LU decomposition error.. 2021. 4. 5.