본문 바로가기
Career/Certificate

[빅데이터분석기사] 필기 - 2. 빅데이터 탐색

by 5ole 2021. 5. 30.

 

< 2. 빅데이터 탐색 >

 

(1) 데이터 결측값 유형 – 비무작위, 무작위, 완전 무작위

비무작위 (NMAR) : 결측값이 결과값에 영향 미침

무작위 (MAR) : 연관은 있지만 결과값에 영향 미치지 않음

완전 무작위(MCAR) : missing completely, 완전 무관한 결측, 제거가 가장 효과적

 

(2) 결측값 대체 방법 6가지

– 평균대체, 단순확률대체, 보삽법, 평가치 추정법, 다중 대치법, 완전 정보 최대우도법 (평평보단최다)

평균대체 : 대푯값으로 대체

평가치추정법 : 맥락/사정 고려, 행렬자료 고려

보삽법 : 시계열 누락 보완, 나머지로 평균 계산

단순확률대체 : 표준오차 과소추정 문제 보완, 단순 확률

완전정보 최대우도법 : 최대우도 기준 가중 평균 구성

다중 대치법 : 완성한 데이터셋 이용해 결측치 추정

 

(3) 이상값 검출 6가지 – 분산, 우도함수, 근접이웃기반, 밀도 기반, 군집, 사분위수 (분우이밀군사)

분산 : 정규분포 97.5% 외의 값

우도 : 우도확률값 외의 값

근접이웃기반 : 정상값 거리와 먼 값

밀도 기반 : 상대적 밀도값이 먼 값

군집 : 특정 군집에 속하지 않는 값

사분위수 : 양쪽 말단(Q1,Q3)의 1.5분위수를 벗어나는 값 Q1-IQR*1.5

 

(4) 이상값 처리 – 삭제, 대체, 정규화, 스케일링

 

(5) 변수 선택법 – 부분집합법, 단계적 선택법

부분집합법 = 임베디드 기법 : 모든 모델 고려, 라쏘/릿지/엘라스틱넷

단계적 선택법 : 전진선택, 후진제거, 단계적 방법 – AIC가 작을수록 좋은 모델

 

(6) 다중공선성 진단

결정계수(R^2)는 크지만 각 변수의 P-value는 작을 경우

독립변수간 상관관계

VIF가 10을 넘으면

 

(7) 차원축소 (PCA, LDA, t-SNE, SVD)

PCA 주성분분석 : 비지도학습으로 선형 연관성이 없는 저차원으로 축소, 분산 최대 보존,

스크리 산점도, 완만해지기 전의 주성분 수 선택

LDA 선형판별분석 : 지도학습으로 결정경계 만들어 데이터 분류해 차원 축소

다변량 정규분포로 파라미터는 평균, 공분산

t-SNE t분포 확률적임베딩 : 고차원 데이터 거리 보존, 관계를 저차원으로 축소

SVD 특이값 분해 : 행렬 크기/모양 상관없이 적용 가능, 정방행렬 – 고윳값 분해, 직사각행렬 – 특이값 분해

 

(8) 클래스 불균형

과소표집 : 둘 다 작게, 데이터 손실

과대표집 : 둘 다 크게, 과적합 문제

SMOTE : 과대표집의 일종, 가장 효과적, 주변값 기준 알고리즘으로 생성

 

(9) 변수 변환

범주형 데이터 변환 : 숫자로

연속형 -> 범주형 : 큰 범주로 (10대)

비정형 데이터 변환 : 단어 빈도수

더미 변수화 : 0,1 이진화

스케일링 : 표준화, 정규화

 

(10) EDA의 4R – Resistance, Residual, Re-expression, Representation

저항성 강조, 잔차 계산, 변수 재표현, 그래프 통한 현시성 (저잔재현)

 

(11) 상관계수 – 피어슨 r, 스피어만 : 선형적 관계 척도 , -1~1

피어슨 : 모수검정, 연속형, 점수

스피어만 : 순위상관계수, 비모수검정, 이산형/순서형, 석차, 비선형적 관계

 

(12) 데이터 탐색

1. 데이터 조회하기

2. 데이터 구조 확인하기

3. 데이터 요약하기

4. 데이터 관계 맺기

 

(13) JOIN 종류

내부, 왼쪽 외부, 오른쪽 외부, 완전 외부

 

(14) 기초통계량 – 중심경향치, 산포도, 왜도, 첨도

중심경향치 : 평균, 중앙값, 최빈값

산포도 : 범위, 사분위수 범위(IQR), 분산, 표준편차

왜도 : 0 기준(왜영) – 작으면 오른쪽 , 크면 왼쪽

첨도 : 3 기준 – 작으면 완만, 크면 뾰족

 

(15) 그래프 종류

히스토그램(연속 도수분포), 막대그래프(범주 빈도), 줄기/잎, 상자그림, 산점도, 원그래프

 

(16) R 시간 포맷

%Y : 4자리 연도

%y : 2자리 연도

%M : 분

%m : 월 숫자

%B : 월 영어명

%b : 월 영어 축약

%S : 초

 

(17) 공간분석 / GIS

공간분석 : 지도위에 시각화하여 인사이트 얻는 분석기법

GIS 지리정보시스템 : 지리 정보를 수집, 처리, 분석 등 위한 컴퓨터 하드웨어, 소프트웨어, 지리적 자료 통합체

                                 구성요소 - 컴퓨터 시스템, GIS 소프트웨어, 인력, 데이터, 인프라

 

(18) 일변량 / 이변량 / 다변량

일변량 : 가장 간단한 형태, 변수 1개, 데이터 요약, 패턴 추출, 기초 통계량 분석

이변량 : 변수 2개, 두 변수 간의 관계 분석

다변량 : 변수 3개 이상, 차원 축소, 분류 분석

           상관분석, 다차원 척도법(MDS), 주성분 분석(PCA), 선형판별분석(LDA)

 

(19) 다차원 척도법 MDS – 유사성 수준을 2차원/3차원 공간에 점으로 시각화, 거리 계산(유클리드), 계량/비계량

계량적MDS : 실제 거리 이용, 전통적 방법

비계량MDS : 순서 정보 이용

 

(20) 텍스트 마이닝, 자연어 처리

텍스트 마이닝 : 텍스트 데이터에 자연어 처리 기술을 사용해 인사이트 도출

자연어 처리 : 자연어를 컴퓨터가 분석할 수 있도록 해주는 작업

 

(21) 텍스트 마이닝 용어

코퍼스 : 텍스트 문서 집합

토큰화

불용어 : 코퍼스에 자주 등장, 무의미

어간 추출 (Stem) : 접사 제거, 의미 담은 어간 분리, 훼손

표제어 추출 : 어간 추출 + 품사, 오랜 변환 시간

형태소 분석 : 형태소 원형 복원, 의미가 있는 가장 작은 단위

단어문서행렬, 문서단어행렬 DTM, TDM

TF-IDF : 높으면 중요도도 높음

워드 클라우드

 

(22) 토픽 모델링 LDA – BoW, 단어 순서 상관없이 단어 빈도가 중요, 차원 축소

 

(23) 소셜 네트워크 분석 SNA

집합론적 방법(집합 관계쌍), 그래프 방법(노드-링크), 행렬 방법(1,0 표시), 방향/무방향 그래프

 

(24) 중심성 – 개인 지위, 연결 정도/근접/매개/위세 중심성 (연근매위), 네트워크 구조 파악 요소

연결 정도 중심성 : 직접 연결된 다른 노드들의 수

근접 중심성 : 노드 간의 거리

매개 중심성 : 노드 연결에서 최다 경로, 중계자

위세 중심성 : 가중치 노드

 

(25) 네트워크 노드 – 밀도, 집중도, 연결 정도, 포괄성 (연포밀집)

밀도 : 맺어진 관계, 연결 정도 수준

집중도 : 중심화, 네트워크 전체가 한 중심에 집중

연결 정도 : 노드에 연결된 관계 수

포괄성 : 맺어진 비율 / 연결 비율

 

(26) 기술 통계, 추론 통계

기술 통계 : 수집한 데이터 요약, 설명 기법

추론 통계 : 모수에 대해 추론, 예측 기법

 

(27) 표본 추출 – 확률/비확률

확률 표본 추출 : 단순 무작위, 체계, 층화, 군집 (단체층군),

1. 단순 무작위 : 균등하게 추출

2. 체계적 : 시간, 순서 등 구간에서 K번째 간격마다 추출

3. 층화 : 각 층에서 단순 무작위 추출

4. 군집 : 여러 군집에서 한 군집 선택

비확률 표본 추출 : 편의, 판단, 누적, 할당 (편판누할), 간편, 대표성 낮음

1. 편의 : 표본 선정 편의성 기준 – 길거리, ARS

2. 판단 : 조사 필요한 대상만 조사 – 표본 크기 매우 작을 때

3. 누적 : 알던 대상 조사, 건너 건너 조사

4. 할당 : 인구 통계적 특성 고려, 그룹별로 필요한 대상만 조사

 

(28) 이산확률분포 - 이항, 다항, 초기하, 포아송

이항 : 베르누이 시행, 성공횟수, 복원추출

다항 : 여러 경우 나올 수 있는 횟수 분포

초기하 분포 : 이항분포와 같지만 비복원추출

포아송 분포 : 이항분포 근사

 

(29) 연속확률분포 - 균등, 정규, 표준정규, 감마, 베타, 지수, t 분포, 카이제곱, F 분포

정규 : 가우스분포, 중심 평균값

감마 : 시간 분포

베타 : 0~1값

t 분포 : 중심 0, 정규분포 보완, 더 넓은 예측범위, 자유도가 커질수록 표준정규분포

카이제곱 : 자유도 커질수록 정규분포와 가까워짐, 범주형 분석, 정규분포 제곱 분포

F 분포 : 두 데이터셋 분산 비교, 분산 검정/추정, 1에 가까울수록 두 분산 크기 유사

 

(30) 표본 분포

표본 분포 : 수많은 표본들의 평균값, 표준편차 분포

중심 극한 정리 : 모집단이 어떤 형태이든 간에 표본크기를 크게 해서 여러 번 반복 추출했을 시에, 정규 분포 형태, 표본 수가 작아도 모집단의 통계량을 구할 수 있다.

 

(31) 좋은 추정량 조건 4가지 (불효일충)

불편성 : 추정량의 기댓값이 모수의 실제값과 유사할수록 좋다

효율성 : 모든 불편 추정량 중 분산이 작을수록 좋다

일치성 : 표본 크기를 크게 할수록 추정량이 모수와 가깝다

충분성 : 모수 정보를 더 많이 가질수록 좋은 추정량

 

(32) 가설 검정 절차

가설 설정 – 유의 수준 결정 – 검정 방법 결정 – 검정 통계량 계산

 

(33) 구간 추정 성질

신뢰수준은 높으면서, 신뢰구간은 좁을수록 바람직하다 (하지만 반비례함)

표본크기 클수록 신뢰구간 좁아짐

 

(34) 제 1종 오류(알파, 유의수준), 제 2종 오류(베타)

제 1종 오류 : 귀무가설이 참인데 잘못 기각시킬 확률

제 2종 오류 : 귀무가설이 거짓인데 기각시키지 않을 확률

유의확률 = p-value, 귀무가설 지지하는 정도

검정력 = 1-베타

 

 

 

 

 

+ 참고 자료 및 출처

[위키북스] 2021 빅데이터분석기사 필기

 

 

 

댓글