본문 바로가기
Analysis/ML

[sklearn] 비지도학습

by 5ole 2021. 5. 10.

 

1. EDA 스케일 조정

 

  • StandardScaler
  • RobustScaler
  • MinMaxScaler
  • Normalizer

 

지도 정보를 사용하지 않으므로 비지도 방식

fit_transform은 훈련셋에서, transform은 테스트셋에서 사용

 

 

2. 데이터 비지도 변환

 

차원축소, 특성추출, 매니폴드 학습 - 시각화, 압축, 추가 처리

 

PCA 주성분 분석
특성들이 통계적으로 상관관계 없도록

데이터셋 회전, 분산이 작은 주성분 덜어냄

특성 개수만큼 주성분 존재

고차원 데이터셋 시각화

주요 상호작용 찾아낼 수 있음
X축 - 첫번째 주성분 / Y축 - 두번째 주성분

두 축을 해석하기가 쉽지가 않음

데이터를 산점도로 시각화 가능

NMF 비음수 행렬 분해 특성 추출
t-SNE 2차원 산점도로 시각화 - 매니폴드

 

 

3. 군집

 

K-Means

  • 이해 쉽고 구현 쉬움, 비교적 빠른 속도, 대용량 데이터셋
  • 무작위 초기화로 알고리즘 출력이 난수 초깃값따라 달라짐
  • 클러스터 모양을 가정하고 있음
  • 클러스터 개수 지정 필요

 

병합군집

  • 와드연결, 평균연결, 최대연결

 

DBSCAN 

 

 

 

 

 

 

 

+ 참고 자료 및 출처

 

(한빛미디어) 안드레아스 뮐러, 세라 가이도  < 파이썬 라이브러리를 활용한 머신러닝 > 

 

 

 

 

 

 

'Analysis > ML' 카테고리의 다른 글

[sklearn] 교차 검증  (0) 2021.05.11
[sklearn] 특성 공학  (0) 2021.05.11
[sklearn] 지도학습  (0) 2021.05.10
[sklearn / statsmodels] 선형회귀 Linear Regression  (0) 2021.01.31

댓글