1. EDA 스케일 조정
- StandardScaler
- RobustScaler
- MinMaxScaler
- Normalizer
지도 정보를 사용하지 않으므로 비지도 방식
fit_transform은 훈련셋에서, transform은 테스트셋에서 사용
2. 데이터 비지도 변환
차원축소, 특성추출, 매니폴드 학습 - 시각화, 압축, 추가 처리
PCA 주성분 분석 | 특성들이 통계적으로 상관관계 없도록 데이터셋 회전, 분산이 작은 주성분 덜어냄 특성 개수만큼 주성분 존재 고차원 데이터셋 시각화 주요 상호작용 찾아낼 수 있음 X축 - 첫번째 주성분 / Y축 - 두번째 주성분 두 축을 해석하기가 쉽지가 않음 데이터를 산점도로 시각화 가능 |
NMF 비음수 행렬 분해 | 특성 추출 |
t-SNE | 2차원 산점도로 시각화 - 매니폴드 |
3. 군집
K-Means
- 이해 쉽고 구현 쉬움, 비교적 빠른 속도, 대용량 데이터셋
- 무작위 초기화로 알고리즘 출력이 난수 초깃값따라 달라짐
- 클러스터 모양을 가정하고 있음
- 클러스터 개수 지정 필요
병합군집
- 와드연결, 평균연결, 최대연결
DBSCAN
+ 참고 자료 및 출처
(한빛미디어) 안드레아스 뮐러, 세라 가이도 < 파이썬 라이브러리를 활용한 머신러닝 >
'Analysis > ML' 카테고리의 다른 글
[sklearn] 교차 검증 (0) | 2021.05.11 |
---|---|
[sklearn] 특성 공학 (0) | 2021.05.11 |
[sklearn] 지도학습 (0) | 2021.05.10 |
[sklearn / statsmodels] 선형회귀 Linear Regression (0) | 2021.01.31 |
댓글