본문 바로가기
Career/Certificate

[빅데이터분석기사] 필기 - 3. 빅데이터 모델링

by 5ole 2021. 5. 30.

 

< 3. 빅데이터 모델링 >

 

(1) 회귀분석 가정 – 선형성, 독립성(잔차 - 독립변수), (잔차) 등분산성, 정규성, 비상관성

 

(2) 회귀분석 종류 – 단순, 다중, 다항, 비선형

다중 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 선형

다항 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 1차 함수 이상, 교차항

 

(3) 독립변수, 종속변수 표현

독립변수 : 설명, 실험, 예측, 통제, 조작변수

종속변수 : 결과, 반응, 목표, 출력, 의존변수

 

(4) ANOVA – 3개 이상 집단 간 평균 비교, 일원/이원

일원 분산분석 : X, y 1개씩

이원 분산분석 : X 2개, 독립변수 간 교호작용 확인

 

(5) 로지스틱 회귀분석 – 도출된 계수는 exp 지수화 해줘야, 분류

                                 독립변수의 선형 결합 이용해 발생 확률 예측 : 시그모이드 함수

                                 독립변수는 연속형, 범주형(더미변수화)

                                 종속변수는 0, 1

오즈, 오즈 비 계산

로짓 변환 log(odds)

 

모형의 유의성 검증 – 이탈도, 작을수록 유의, 카이제곱검정

계수의 유의성 검증 – wald test

모형 설명력 검증 – 결정계수, AIC

 

(6) 의사결정트리 분류기준

CHAID – y 이산 (카이제곱 통계량), 연속 (ANOVA F-통계량)

CART – y 이산 (지니 지수), 연속 (분산감소량)

C4.5 – y 이산 (엔트로피 지수)

 

(7) 의사결정 트리 장단점

장점 – 해석 용이, 이상치 덜 민감, 비모수적 모형, 자동 변수 선택, 연속/범주 모두 가능

단점 – 경계에 있는 자료값은 오차 커짐, 모형이 복잡시엔 정확도 하락, 변수 영향력 파악 어려움, 예측 불안정

 

(8) ANN 활성화함수 – step, sigmoid, sign, tanh, ReLU, softmax, 비선형함수

Step : 0,1

Sigmoid : 0~1

Sign : -1,1

Tanh : -1~1

ReLU : 0,x

Softmax : 0~1, y가 다범주

 

(9) 신경망 계층 구조 : 입력층(연산x) – 은닉층(활성함수) – 출력층

 

(10) 역전파 – 가중치, 편향 찾는 것, 최적화 과정이 빠르고 정확해짐

 

(11) 인공신경망 장단점

장점 : 잡음에 민감하지 않음, 비선형문제해결, 패턴인식/분류/예측, 스스로 가중치 학습

단점 : 오랜 시간, 지역해로 수렴가능, 신뢰도가 낮다, 해석 어려움, 은닉층/은닉노드 수 결정 어려움, 블랙박스

 

(12) 서포트벡터머신 SVM – 하드마진/소프트마진, 초평면(결정경계)

하드마진 : 과적합

소프트마진 : 여유변수(1보다 크면 잘못 분류), 마진 크기 최대로, 파라미터 C

 

C : 오분류 허용 정도, 값이 작을수록 오분류 관대(과소적합), 클수록 오분류 엄격(과적합)

gamma : 단일 샘플 영향력, 값이 작을수록 과소적합, 클수록 과적합

 

(13) 서포트벡터 장단점

장점 : 데이터 희소 효과적, 연산량 감소, 비선형 분류 가능, ANN보다 과적합 위험 적음, 잡음 민감하지 않음

단점 : 오랜 시간, 블랙박스, 해석 어려움, 많은 테스트 필요, 데이터 전처리 중요

 

(14) 연관성 분석 – 조건/결과 패턴, 비지도학습, 장바구니 분석, 알고리즘 간단, 지지도/신뢰도/향상도 (신지향)

지지도 : 교집합, P(A->B)=P(B->A), 1에 가까울수록 연관성 높다

신뢰도 : P(A->B), P(B->A) 같지 않다, A 거래 중 B 포함, 1에 가까울수록 연관성 높다

향상도 : P(A->B)=P(B->A), 1보다 크면 양의 관계, 1과 같으면 독립

 

(15) 연관성분석 Apriori 절차 – 지지도 사용

1. 최소지지도 설정

2. 최소지지도 넘는 모든 품목 찾음

3. 최소지지도 넘는 2가지 집합 찾는다

4. 최소지지도 넘는 3가지 집합 찾는다

5. 반복 수행해 최소지지도 넘는 모든 빈발 아이템 집합 찾는다

 

(16) 연관성분석 장단점

장점 : 유의미 구매패턴 발견, 분석목적없이 분석 가능, 자료구조/계산과정 간단, 이해쉬움, if-then

단점 : 계산량 기하급수적 증가, 거래량 적으면 발견 힘듦, 연속형 변수는 구간 분할, 규칙 수가 너무 많음

 

(17) 군집 분석 – 유사성(거리) 기초해 집단 나누는 기법, 계층적/비계층적/밀집기반/모형기반/코호넨맵

1. 계층적 군집 : 병합적/분할적 방법, 덴드로그램, 한번 병합된 개체는 분리되지 않음 – 연결법 중요

2. 비계층적 군집

- K-평균 : 군집 수 정의, 대용량 데이터, 계산 비용 저렴, 단계마다 군집 달라질 수 있음,

이상치 영향 많음, 군집 볼록형태

3. 밀도기반군집 : DBSCAN - 밀도기반 군집 분석, 군집 형태 정의 X, 군집 수 정의 X, 밀집 이웃 수 정의

4. 모델기반군집 : 가우시안혼합모델 – 모수적 군집방법, 군집 수 k 정의, k개의 정규분포로 생성 가정,

분포 혼합 알고리즘, 여러 군집 포함 가능, EM 알고리즘 사용해 모수 추정 필요

+ EM알고리즘 절차 : 모수 임의값 설정 – 잠재변수 Z 기대치 추정 – Z로 모수값 추정 – 모수와 Z 수렴까지 반복

5. 코호넨맵 : SOM 자기 조직화지도 – ANN으로 차원축소, 군집화 동시 수행, 2차원 격자 표현, 입력층-경쟁층, 승자독식방법, 완전연결, 하나의 전방 패스 (역전파 X)

 

(18) 군집 간 거리 측정 – 단일/완전/평균/중심/와드연결법 (단완평중와)

단일 : 최단연결법, 거리가 가장 가까운 군집 병합, 사슬 형태

완전 : 최장연결법, 내부 응집성, 둥근 형태

평균 : 불필요한 계산량, 이상치엔 덜 민감

중심 : 중심점 사이의 거리, 적은 계산량, 중심 사이의 거리를 한 번만 계산, 모든 관측치 거리 측정 X

와드 : 평균/오차제곱합, 오차제곱합 최소되는 방향, 조밀한 군집

 

(19) 범주형 자료분석

X 범주, y 범주 : 상대적 위험도, 오즈비, 카이제곱 검정, 로그선형분석

X 범주, y 연속 : t-검정, 분산분석, 다변량분산분석

X 연속, y 범주 : 판별분석, 군집분석, 로지스틱회귀분석

 

(20) t 검정 – 단일표본, 독립표본, 대응표본 (단독대)

단일표본 : 특정값 비교

독립표본 : 두 그룹 평균 차이 0인지 아닌지, 정규성 검사 먼저

대응표본 : 동일 대상 전후 비교 검정, 정규성 검사 먼저

 

(21) 카이제곱 – X, y 모두 범주형, 적합도/독립성/동질성 검정 (적독동)

[(기대-실제)^2 / 기대 ] 합

적합도 : 일변량 분석방법, 변수 1개가 범주 구분될 때 데이터 분포 검정

독립성 : 변수 2개 연관성

동질성 : 변수 1개가 범주 구분될 때 차이 검정

 

(22) 다변량 분석 유형

X-y 추정, 변수 간 관계 분석 : 다중회귀, 다변량분산분석, 다중로지스틱회귀분석

변수 간 상관관계 이용해 변수 요약 : PCA, 요인분석

개체 분류 : 군집분석, 판별분석

 

(23) 요인분석

조건 : 연속형 데이터, 관측치 서로 독립, 변수는 다변량 정규분포형태, 분산 모두 동일, 표본 수 50 이상

목적 : 자료 요약/차원 축소, 변수 상호독립 특성 발견, 변수 제거, 타당성 검증

 

(24) 판별분석 – 지도학습

판별함수 갯수 : Min(그룹수 -1, 독립변수 수)

 

(26) MDS Stress – 실제 거리와 추정된 거리 적합도 측정

 

(27) 시계열 분석 정상성 조건

평균, 분산, 공분산이 시간의 흐름(시점)에 의존하지 않는다. – 시차 의존

 

(28) AR / MA / ARIMA

AR : 변수들의 자기상관성 기반

MA : 과거 백색잡음의 선형 가중합, 항상 정상성 만족

ARIMA : 비정상 시계열 모형, 차분으로 정상화 사용

 

(29) 평활법/분해법

평활법 : 이동평균(일정 기간별로 평균), 지수평활(최근자료 효과적, 평활계수가 클수록 최근 영향)

분해법 : 가법, 승법

 

(30) 나이브 베이즈 : 지도학습, 분류, 모든 변수 독립적, 라플라스 스무딩

 

(31) 딥러닝 – 기존 신경망 문제점 해결, 2개 이상의 은닉층

1. 사전학습 : 과적합 방지, RBM

2. 정규화 : 과적합 방지, L1, L2 규제

3. 드롭아웃 : 과적합 방지, 에폭마다 50% 사용

4. 배치 정규화 : 각 층 출력분포 정규분포

5. GPU 병렬처리

6. 활성함수 변경 – ReLU

 

(32) CNN 합성곱신경망 – 행렬 형태로 데이터 입력, 형태 보존

합성곱층 : 합성곱 연산으로 특징 추출, 패딩으로 이미지 외곽 인식효과, 필터로 가중치, 필터 이동량 스트라이드

풀링층 : 선택적 사용, 데이터 사이즈 축소시키고 싶을 때

 

(33) RNN 순환신경망 – 시퀀스 data 최적

내부에 순환구조, 모든 계층에서 같은 가중치 값 공유, BPTT로 가중치 학습 – 역전파 X, 장기 의존성 문제

 

(34) 앙상블 분석

배깅 - 중복허용/병렬

부스팅 - 오분류 가중치/순차적 학습

RF - 변수 랜덤선택

다른 결합(스태킹, 보팅)

 

(35) 비모수 통계 – 부호검정, 만위트니검정, 크루스칼왈리스검정, 런검정 (부호, 순위,)

부호검정 : t-test 비모수적 방법, 중앙값으로 검정, +/-

만위트니U검정 : 윌콕슨순위합검정 : 같은 분포인 두 집단 중심 위치 비교, 데이터의 크기 순서

크루스칼윌리스검정 : 3개 이상 집단 중앙값 비교, 순위합검정, 중앙값

런검정 : 각 표본! 독립적 가설 검정

 

 

 

 

+ 참고 자료 및 출처

[위키북스] 2021 빅데이터분석기사 필기

 

 

 

댓글