본문 바로가기
Career/Certificate

[빅데이터분석기사] 필기 - 4. 빅데이터 결과 해석

by 5ole 2021. 5. 30.

 

< 4. 빅데이터 결과 해석 >

 

 

(1) 군집 분석 평가 – 외부/내부

외부평가: 자카드 계수 평가(두 군집 유사도), 분류모형 평가 방법 응용(ROC, 혼동 행렬)

 

내부평가 : 단순계산법(군집 개수 .. ), 거리계산, 엘보 메소드

 

(2) 혼동행렬 – 예측 위주, 정확도/정밀도/재현율(민감도,참긍정율)/특이도(참부정율)/거짓긍정율/F1-score

정확도 : 전체에서 True 분류, 올바르게 분류

정밀도 : 예측 positive에서 실제 positive 분류

재현율 TPR : 실제 positive에서 실제 positive 분류 -> 초기환자

특이도 TNR: 실제 negative에서 실제 negative 분류 -> 진단 확신

거짓긍정율 FPR: 실제 negative에서 가짜 positive 분류

F1-Score

 

ROC curve : T-F, 분류 모형 성능 비교

 

(3) 회귀 평가지표

절댓값 – 이상치 유리, 제곱 – 이상치 불리

 

(4) 적합도 검정 – 특정 분포를 data가 따르는지

카이제곱검정(범주형), 샤피로 윌크(정규분포), 콜모고로프-스미르노프(비모수검정, 차이 D), QQplot(정규성)

 

(5) 매개변수 최적화 – 손실함수값 최소화

경사하강법 GD : 현재 위치에서 급격히 감소하는 방향으로 매개변수 조정 반복, 전역 최솟값 찾기

확률적 경사하강법 SGD : 무작위 샘플링해 급격히 감소 방향으로 조정, 배치가 1

미니 배치 확률적 경사하강법 BGD : 전체 데이터셋 사용

모멘텀 : SGD에 가속도, 진동 감소, 더 빠르게 학습 가능

AdaGrad : 매개변수별 학습률 부여, 업데이트가 빈번하면 낮은 학습률, 업데이트가 없으면 높은 학습률로 조정

Adam : 오래된 기울기 영향력 줄임, AdaGrad 개선, 최근 가장 많이 사용됨

 

(6) 잔차 진단

잔차 vs. 적합치 plot : 잔차 0일수록 이상적

QQplot : 정규성 시각화

스케일 위치 plot : 잔차 분산 일정, 직선 기울기가 0에 가까울수록 등분산

잔차/지렛대 plot : 회귀결과, 이상치 식별, 쿡의 거리, 이상치면 쿡 거리도 크다.

 

(7) NCS 모형 성능 평가/최종 모형 선정

데이터셋 준비 – 모형 적용/예측값 도출 – 혼동행렬(실제값, 예측값 비교) – 주요 모형 평가지표 확인 – 최종 모형 선정

 

(8) BSC (Balance Score Card) 성과관리

재무적 관점 + 고객, 프로세스, 학습/성장 관점 추가

 

(9) 시각화 분류

데이터 시각화 : 커뮤니케이션, 마인드맵/의사결정트리/통계그래픽

정보 시각화 : 데이터 시각화보다 한 단계 더 정보 형태, 트리맵/분기도/수지도/히트맵

정보 디자인 : 인포그래픽

 

(10) 시각화 프로세스

1. 구조화(시나리오, 스토리) – 2. 시각화(간단명료 형태/모양) – 3. 시각 표현 단계

 

(11) 시각화 종류

시각 시각화 : 막대그래프, 점그래프, 산점도, 선 그래프, 계단식 그래프, 영역 차트

공간 시각화 : 지도, 등치선도, 버블 플롯맵, 도트 플롯맵

분포 시각화 : 파이차트, 도넛차트, 트리맵, 누적 막대/연속

관계 시각화 : 산점도 행렬, 버블차트, 히스토그램, 밀도함수그래프

비교 시각화 : 막대그래프, 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표계

 

(12) 빅데이터 큐레이션 = 예측, 요구사항 발견, 고객 맞춤형 서비스 지원 등 비즈니스 지원/발전, 전 과정

 

(13) 결과 분석 시각화 단계

1. 특성화 – 2. 추상화 – 3. 상호작용 – 4. 개발

 

(14) 분석 모형 명세서

분석 유형 : 배치성, 실시간 데이터 분석 – 아키텍처

주요 분석 항목 : 실적/약점 분석, 예측 분석, 추천 분석 – 데이터 마이닝

분석 결과 : 현재/미래까지 변화 추이, 현황 분석 – 시계열, 분포 분석

 

(15) 분석 결과 활용 시나리오

분석 아키텍처를 활용해 상세히 명세화

- 고객과 개발자 관점의 뷰 도식화해 모형 명세화

- 고객이 이해할 수 있게 비즈니스 용어에 맞게 서술형, 순서도 혼합 작성

 

(16) 분석모형 성과 관리 프로세스

1. 성과지표수립

2. 성과측정방법수립

3. 분석모형 성과 평가 실행

4. 분석모형 성과 평가 피드백

 

(17) 성과 측정 방법 특징

균형 성과표 BSC : 전략 관점, 전략 맵 개념 도입, 경영진 성과 관리 강조 – 보편화, 사용에 실증적 증거 부제

목표치 target : 실제 성과 측정, 모니터링/통제, 목표 설정 방법 유형화(과거경향 비교)

– 특성 다른 기관 평가에 유용, 성과 측정 위해 목표치 설정(역설 현상 발생)

시계열 분석 TSA : 시간적 흐름 – 단년도 위주 활용 어려움, 목표치 설정에 부분 활용

 

(18) NCS 협업 계획

1. 주제 공유, 목표 설정 – 2. R&R 분리(인력), 협업/상호보완 – 3. 협업 방법, 도구 등 협의 – 4. 결과 보고서

 

(19) 스토리보드 작업

1. 사용자별 맞춤형 데이터 표시(참여자:드릴다운) – 2. 레이아웃 구성 – 3. 효과적 시각화 선택

 

 

 

 

 

+ 참고 자료 및 출처


[위키북스] 2021 빅데이터분석기사 필기

 

 

댓글