본문 바로가기

Archive109

[sklearn] 교차 검증 모델이 훈련 세트보다 테스트 세트에서 예측을 잘 하는 것이 중요 1. 교차 검증 (Cross-Validation) K-kold가 대표적 - K개의 데이터로 분할 train_test_split 은 무작위로 한번 나누는 것 교차검증은 최악의 경우와 최선의 경우를 짐작 가능하게 함 데이터를 효과적으로 사용 가능, 연산 비용이 늘어남 모델을 만드는 것이 아닌, 잘 일반화될지 평가하는 것 from sklearn.model_selection import cross_val_score cross_val_score( model, X_data, y_data, cv =n ) 적어도 5겹 이상 사용할 것 주로 scores.mean() 으로 평균내어 최종 검증 정확도 사용 계층별 k-겹 사용 from sklearn.model_.. 2021. 5. 11.
[sklearn] 특성 공학 특성 공학 Feature Engineering : 특정 애플리케이션에 가장 적합한 데이터 표현 찾는 것 1. 범주형 변수 One-hot-encoding - value_counts로 unique 값 먼저 확인 pd.get_dummies 는 숫자 범주형 특성은 .astype(str)로 문자열 특성으로 바꿔주어야 함 from sklearn.proprocessing import OneHotEncoder sklearn의 OneHotEncoder(sparse=False)는 모두 범주형이라고 가정, 숫자/문자열 모두 바꿈 ohe.fit_transform(data) 2. 연속형 변수 - 스케일 조정 from sklearn.compose import ColumnTransformer sklearn의 ColumnTransf.. 2021. 5. 11.
[sklearn] 비지도학습 1. EDA 스케일 조정 StandardScaler RobustScaler MinMaxScaler Normalizer 지도 정보를 사용하지 않으므로 비지도 방식 fit_transform은 훈련셋에서, transform은 테스트셋에서 사용 2. 데이터 비지도 변환 차원축소, 특성추출, 매니폴드 학습 - 시각화, 압축, 추가 처리 PCA 주성분 분석 특성들이 통계적으로 상관관계 없도록 데이터셋 회전, 분산이 작은 주성분 덜어냄 특성 개수만큼 주성분 존재 고차원 데이터셋 시각화 주요 상호작용 찾아낼 수 있음 X축 - 첫번째 주성분 / Y축 - 두번째 주성분 두 축을 해석하기가 쉽지가 않음 데이터를 산점도로 시각화 가능 NMF 비음수 행렬 분해 특성 추출 t-SNE 2차원 산점도로 시각화 - 매니폴드 3. 군집.. 2021. 5. 10.
[sklearn] 지도학습 모델의 가정과 매개변수의 의미를 제대로 이해하는 것이 중요 알고리즘 종류 특징 전처리 중요 매개변수 KNN 최근접 이웃 (회귀), (분류) 작은 데이터셋 기본 모델 설명하기 용이 특성이 많을 때는 부적절 희소한 데이터셋에 잘 작동 스케일링 O metric 거리 재는 법 n_neighbors 이웃 수 Linear Model 선형 모형 (회귀) Linear Regression Ridge Lasso (분류) Logistic Regression Linear SVC 첫번째 시도 알고리즘 속도가 빠름 희소한 큰 데이터셋 잘 작동 대용량 데이터셋은 Logistic과 Ridge에 solver ='sag' 옵션 줌 선형 모델 대용량 처리버전으로 나온 SGD회귀/분류 사용 특성이 많을수록 잘 작동 스케일링 O L1,L2 .. 2021. 5. 10.
[Tableau] 6. 집합, 컨텍스트 필터 1. 집합 집합 > 필터 필드 - 만들기 - 집합 직접 선택 IN, 선택하지 않은 것 OUT으로 구분됨 Top N 만들기 : 상위 - 새 매개변수 만들기로 집합 편집 결합할 집합의 모체가 동일해야 결합된 집합 만들기 가능 Top 50, Top 150 집합 만들어 결합 삼성, 애플 스마트폰에 해당하는 각각의 집합 만들어줌 두 집합을 합집합으로 만들어 합집합인 IN만 표현되게 필터 삼성 집합을 올려 IN, 나머지 OUT을 애플로 표현되도록 함 집합 조건 수식으로 AVG([Discount])>=0.2 AND [profit margin] >= 0.2 : 색상 마크 상수라인으로 0.2 나타냄 2. 컨텍스트 필터 Order of operation 주의 필요 시도 필터가 Top N 필터보다 낮은 Order가 되면 T.. 2021. 5. 9.
[Tableau] 5. 함수, 매개변수 1. 필드 필드 만들기 - 계산된 필드 만들기 sum =# : 새롭게 만든 필드 // 주석처리 2. 함수 숫자 : CEILING 올림, FLOOR 내림, ZN null값을 0으로 바꿔줌 문자열 : LEFT 왼쪽에서 글자, RIGHT 오른쪽에서 글자, MID 지정위치 글자 가져옴, SPLIT 구분자 단위로 끊기, REGEXP 정규표현식 날짜 : DATEDIFF 두 날짜 사이 차이, DAY, MONTH, TODAY, NOW 등등 유형변환 : INT, FLOAT 논리 : IF, CASE 집계함수 : AVG, COUNT, COUNTD, MAX, MIN, ATTR - 문자열 집계( TRUE, FALSE 문자열로 ) 테이블 계산 : 어려움, INDEX, LOOKUP, SCRIPT_STR, SIZE, TOTAL, W.. 2021. 5. 9.
[Tableau] 4. 도넛 차트, Order of operation 큰 숫자로 나타내는 방법 : 텍스트나 시트에 떨어트림 -> 벤 도넛 차트 파이차트 만든 후 각도 설정 행/열 선반에서 min(1) 로 더미 변수 생성 min(1) 복제 : ctrl + 선택 두 개의 차트 중 하나를 각도 제거, 색상 세부정보로 변경 원으로 만들고 크기 줄인 후, 이중 축 설정 색상을 흰색으로 만들어 주고 줄은 서식 - 라인 - 열 격자선 제거 레이블 넣은 후 맞춤 - 중간 정렬 원 선택 후 - 마크 레이블 - 항상 표시 설정 -> 두 개의 원 중 뒤의 원에 표시되고 있기에 Tableau의 Order of operation 태이블 계산 필터를 사용 후 또 필터 적용 하고 싶다면 hidden marks 등의 방법 사용 (아래 카테고리별 Bar chart) 대시보드에서 부분별로 선택해 차트 적.. 2021. 5. 7.
[Tableau] 3. 결합 / 필터 / 차트 / 분석 / 지도 1. 결합 (1) Union 결합 : 세로로 결합 와일드카드(자동 결합) : Union_Example_02_20**.xlsx로 해당 조건 데이터 자동으로 찾아 개별 파일들 결합 특정 수동 : 결합할 개별 엑셀시트 끌어와 결합 (2) 열 이름이 다를 경우 : 같은 열로 병합할 필드들을 선택해 불일치필드 병합 선택 (3) 필요없는 열 : 오른쪽 마우스 -> 숨기기 선택 (4) Join 결합 : 시트 클릭해 안쪽, 왼쪽, 오른쪽, 전체 바깥쪽 (5) Relation 관계 : 느슨한 결합, 누들로 연결 (다른 db에 없는 관계) (6) Blending 블렌딩 : 각자 불러온 시트를 결합, 화면 단에서 결합, 빨간색 연결 고리 2. 필터 : 태블로의 핵심 요소, 계산 순서 (1) 추출 필터 : (라이브, 추출)에.. 2021. 5. 5.
Lecture 19. 딥러닝 예측 실습 0. 데이터 형태 비트코인 가격만 있는 데이터 60일치 데이터로 예측 목표 (1) 데이터 정제 # Parameters criteria = '2020-01-01' scaler = preprocessing.MinMaxScaler() sequence = 60 batch_size = 32 epoch = 10 verbose = 1 dropout_ratio = 0 # Train & Test Split train = raw_all.loc[raw_all.index = criteria,:] print('Train_size:', train.shape, 'Test_size:', test.shape) 2020-01-01 기준으로 train,.. 2021. 5. 4.
[Tableau] 2. 대시보드 설정 1. 시트 차트 그리는 곳 차원 -> 측정값 : 표 측정값 -> 차원 : 차트 2. 대시보드 주로 1200 * 800 상위 분류가 위에 오도록 그림 바둑판식 - Default, 비즈니스, 공간을 채워가는 방식 부동방식 - 정밀 / 디자인적 요소, flotting 방식 3. 스토리보드 PPT 기능 시트 바로 넣으면 제목 표시 안됨 표시하고 싶으면 대시보드 통해 사용 ( 시트 -> 대시보드 -> 스토리보드 ) 1. 기본 대시보드 (1) 선 생성 : 빈 페이지 - 레이아웃 - 백그라운드 채워주기 (2) profit_month 계단식으로 표현되어있는 분기별 데이터를 index function으로 연도별, 분기별로 월에 대해 줄 세우기 행/열 선반에서 INDEX() 입력, 불연속식 -> 테이블 계산 선택 (연도/.. 2021. 5. 3.