본문 바로가기
Career/Certificate

[빅데이터분석기사] 필기 - 1. 빅데이터 분석 기획

by 5ole 2021. 5. 30.

 

<1. 빅데이터 분석 기획>

 

(1) 데이터 유형 – 정량적, 정성적

정량적 : 수치 표현 가능 데이터, 저장/검색/분석 용이

정성적 : 정형화되지 않은 데이터, 많은 비용과 투자 필요

 

(2) 암묵지와 형식지 – 암묵지가 형식지로 표출, 연결되면 지식으로 형성되는 상호작용

암묵지 : 공통화, 내면화, 경험으로 체득, 머릿속에만 있는 지식

형식지 : 표출화, 연결화, 문서/매뉴얼 등 공유가능한 지식

 

(3) DIKW 피라미드 – 데이터/정보/지식/지혜

데이터 : 객관적인 사실

정보 : 가공, 처리된 데이터 속에서 의미 도출 – 유의미하지 않을 수 있다.

지식 : 구조화해 유의미한 정보 도출, 개인 경험 결합해 고유의 지식으로 내재화

지혜 : 지식의 축적과 아이디어가 결합되어 창의적임.

 

(4) 데이터베이스 특징

정보 축적, 전달 : 기계 가독성, 검색 가능성, 원격 조작성

정보 이용 : 신속한 획득, 원하는 정보 정확하게, 경제적

정보 관리 : 일정한 질서, 구조로 체계적, 추가 및 갱신이 용이

정보기술발전 : 정보처리, 소프트웨어, 하드웨어, 네트워크 기술 발전

경제, 산업적 : 필요한 정보 신속 제공, 이용하며 효율적, 국민 편의 증진

 

(5) 부문별 데이터베이스

물류 : CVO, EDI, CALS, PORT-MIS, KROIS

지리 : GIS, 4S, LBS, SIM

교통 : ITS, 교통, 대국민서비스 확대

의료 : 전자의무기록, HL7, U헬스, PACS

교육 : ICT 교육, NEIS

 

(6) 용어

DW (Data Warehouse) : 공통 형식으로 변환해 관리

EDW : 전사적 DW , BPR/CRM/BSC 같은 다양한 분석 애플리케이션 원천

CRM : 고객관계관리, 커뮤니케이션/마케팅 기반 관계유지, LTV(고객생애가치) 향상

OLTP : 온라인 거래 처리, 여러 이용자가 DB 갱신/조회 등 단위작업처리 방식,

정보 수집, 조직 내 공유 위한 MIS 등 영역별 구축되는 단순 자동화 시스템

OLAP : 온라인 분석 프로세스, 대화식 정보 분석, 단독 존재하지는 못하고, DW/DM와 연관,

           데이터를 전략적 정보로 변환, 분석 중심 시스템으로 구축 변화

SCM : 공급망 관리, 공급망 단계 최적화 관리

EAI : 전사적 응용 프로그램 통합

KPI : 기업 목표 달성 성과지표, 목표 수립, 모니터링, 유효성 평가

BI : 데이터 수집, 분석 활용해 효율적 의사 결정하도록 연구하는 학문

 

(7) 빅데이터 특징 – 3V

Volume (양)

Variety (다양성) – 비정형 데이터

Velocity (속도) – 실시간 정보

+ Veracity (정확성) , Value (가치)

 

(8) 빅데이터 기대 표현

산업혁명의 석탄/철 : 제조업, 서비스 분야 생산성 향상, 사회 전반 혁명적 변화

21세기 원유 : 산업 전반의 생산성 향상, 새로운 범주 산업

렌즈 : 산업 발전에 큰 영향

플랫폼 : 다양한 서드파티 비즈니스에 활용

 

(9) 빅데이터 분석 변화

사전처리 -> 사후처리

표본조사 -> 전수조사

질 -> 양

인과관계 -> 상관관계

 

(10) 빅데이터 영향

투명성 제고, 시뮬레이션, 고객 세분화 / 맞춤 서비스, 알고리즘 활용해 의사결정, 비즈니스 혁신

 

(11) 빅데이터 경영혁신

생산성 증가 -> 발견 문제 해결 -> 의사결정 향상 -> 새로운 고객가치 비즈니스 창출

 

(12) 7가지 빅데이터 테크닉

1. 연관규칙 학습 – 상관관계 찾기

2. 유형분석 – 분류

3. 유전 알고리즘 – 최적화

4. 머신러닝 – 예측

5. 회귀분석 – 두 변인관계 파악

6. 감정분석

7. 소셜 네트워크 분석 (SNA) – 오피니언 리더, 소셜 관계 파악

 

(13) 빅데이터 위기요인, 통제방안

위기요인 – 사생활 침해, 책임 원칙 훼손, 데이터 오용

통제방안 – 제공자의 동의가 아닌 사용자의 책임, 결과 기반 책임 원칙 고수, 알고리즘 접근권 보장

 

(14) 아메리칸 항공 vs 사우스웨스트 항공

비슷한 수익관리 모델 – 단순 최적화 가격 책정

 

(15) 산업별 일차원적 분석

금융 : 신용점수, 사기탐지, 가격책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석

– 수요/공급 X

에너지 : 트레이딩, 수요/공급 예측

병원 : 가격 책정, 고객 로열티, 수익 관리

정부 : 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화

 

(16) 데이터사이언티스트 역량

하드스킬 : 이론적 지식, 기술 숙련

소프트스킬 : 통찰력, 설득, 협력

 

(17) 가치 패러다임 (=시대 프레임) 변화

디지털화 -> 연결 (디지털 정보들을 연결) -> 에이전시 (복잡한 연결로 인해 믿을 만하게 관리)

 

(18) 분석 준비도 평가 (분석 환경 우선 조성 -> 분석 업무 도입)

분석 업무 파악, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라

 

(19) 분석 성숙도 평가 – CMMI 모델

(도입 -> 활용 -> 확산 -> 최적화) (비즈니스, 조직/역량, IT)

도입 : 분석 시작, 환경 구축

활용 : 분석 결과 업무 적용

확산 : 전사 차원 분석 관리, 공유

최적화 : 혁신 및 성과 향상 기여

 

비즈니스 부문

- 도입 : 실적 분석/통계, 정기 보고, 운영 데이터 기반

- 활용 : 미래 결과 예측, 시뮬레이션, 운영 데이터 기반

- 확산 : 전사성, 실시간 분석, 프로세스 3.0, 분석규칙 관리, 이벤트 관리

- 최적화 : 외부 환경 분석 활용, 실시간 분석, 비즈니스 모델 진화

 

조직/역량 부문

- 도입 : 일부 부서, 담당자 역량 의존

- 활용 : 전문담당부서, 분석 기법 도입, 관리자가 분석 수행

- 확산 : 전사 모든 부서 수행, 분석 COE 운영, 데이터 사이언티스트 확보

- 최적화 : 데이터 사이언스 그룹, 경영진 분석 활용, 전략 연계

 

IT 부문

- 도입 : 데이터 웨어하우스, 데이터 마트, ETL/EAI, OLAP

- 활용 : 실시간 대시보드, 통계 분석 환경

- 확산 : 빅데이터 관리 환경, 시뮬레이션/최적화, 비주얼 분석, 분석 전용 서버

- 최적화 : 분석 협업환경, 분석 SandBox, 프로세스 내재화, 빅데이터 분석

 

(20) 성숙도, 준비도 진단결과 (성,준)

준정확도 – 준비형, 정착형, 확산형, 도입형

 

준비도, 성숙도 낮음 – 준비형 : 사전준비 필요

준비도 낮음, 성숙도 높음 – (분석)정착형 : 제한적 분석, 분석의 정착 필요

준비도 높음, 성숙도 높음 – 확산형 : 지속적 확산이 가능

준비도 높음, 성숙도 낮음 – (분석)도입형 : 데이터 분석 바로 도입 가능

 

(21) 분석 조직 유형 – 집중구조, 기능구조, 분산구조 : 조집분기

집중구조 : 별도 조직 구성, 업무 중복 가능, 모든 분석 업무

분산구조 : 현업부서에 직접 배치, 분석결과 신속

기능구조 : 일반적, 특정 업무 부서 국한, 업무 중복 가능, 핵심분석 어려움

 

(22) 분석과제 프로세스

아이디어 -> 과제 후보 제안 -> 분석과제 확정 -> 팀 구성 ->

분석과제 실행 -> 분석과제 진행 관리 -> 결과 공유/개선

 

(23) 빅데이터 에코시스템

여러 기술, 프레임워크 등 여러 솔루션을 하나로 묶어 에코시스템 구축

 

(24) 머신러닝과 딥러닝 ( 머신러닝 > 딥러닝 )

머신러닝 : 데이터 분석, 학습한 내용 적용

딥러닝 : 인공신경망 분석 기술, 머신러닝보다 더 진보적, 예측 정확성 스스로 판단

 

(25) 마이데이터 운동 – 정보의 주체가 개인정보 권한을 갖고 관리하자는 취지

자기정보결정권 + 데이터 경제 활성화

- 데이터 통제(개인이 통제권 가짐)

- 데이터 제공(개인이 요구할 때 쉽게 접근, 이용)

- 데이터 활용(개인의 요청으로 자유로운 데이터 이동, 결과를 개인이 투명하게 알 수 있어야 함)

 

(26) 우리나라 개인정보 범위 : 다른 정보와 결합해 식별할 수 있는 정보, 제한적

 

(27) 프라이버시

산업사회 : 남에게 방해받지 않을 소극적 권리

-> 정보화사회 : 내 정보가 침해로부터 자유로울 권리

-> 4차 산업사회 : 내 정보 가치를 보호받을 권리

 

(28) 개인정보 비식별화 기술

가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹

- 가명처리 : 휴리스틱 가명화, 암호화, 교환방법

- 총계처리 : 총계처리, 부분총계, 라운딩, 재배열

- 데이터 삭제 : 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부 삭제

- 데이터 범주화 : 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩

- 데이터 마스킹 : 임의 잡음 추가, 공백, 대체

 

(29) NCS 빅데이터 분석 기획 능력 요소

도메인 이슈 도출, 분석 목표 수립, 프로젝트 계획, 보유 데이터 자산 확인 (예산 X)

- 도메인 이슈 도출 : AS/IS(현재 상황), 개선방향 도출, SOW(범위 설정)

- 분석 목표 수립 : 분석 목표 정의서 확정

- 프로젝트 계획 : 프로젝트 계획 설계 – WBS 작성

- 보유 데이터 자산 확인 : 내/외부 데이터 활용 수준, 유형 점검

 

(30) 하향식, 상향식 접근법 (분석대상 O / X)

하향식 : 분석 방법 알면 최적화 , 모르면 솔루션 개발

상향식 : 분석 방법 알면 인사이트, 모르면 발견

 

(31) 분석과제 발굴 방법론 (하향식 VS 상향식)

1. 하향식 : 문제 탐색 – 문제 정의 – 해결방안 탐색 – 타당성 검토

2. 상향식 : 지도/비지도 학습 – 프로토타입

 

1. 하향식

- 문제 탐색 4가지

①     비즈니스 모델 탐색 : 업무-제품-고객(고제업) + 규제/감사 + 지원 인프라 영역

②     분석기회 발굴 범위 확장 : 기업/산업 환경 중심 - 거시적, 경쟁자, 시장 니즈, 역량(내/외부) – 거경시역

③     외부 참조 모델 기반 문제 탐색 : Quick/Easy, 산업별/서비스별 분석과제 POOL 브레인스토밍

④     분석 유스케이스 : 유사 사례 유스케이스(업무 흐름설명) 탐색

 

- 문제 정의 : 데이터 분석 관점으로 전환

 

- 해결방안 탐색 4가지 : 기존 시스템으로 가능 여부, 기업 분석역량 유무 판단해 탐색

①     기존 시스템 O, 분석 역량 O : 기존

②     기존 시스템 O, 분석 역량 X : 역량 확보 – 교육/채용

③     기존 시스템 X, 분석 역량 O : 시스템 고도화

④     기존 시스템 X, 분석 역량 X : 전문업체 아웃소싱

 

- 타당성 검토 : 경제적, 기술적 타당성 검토 (분석 역량, 분석 시스템 환경)

 

2. 상향식

- 지도/비지도학습

지도 : 머신러닝, 의사결정트리, ANN

- 프로토타입(시행착오 해결법)

 

(32) 빅데이터 분석 방법론 5단계 – 널리 사용

1. 분석 기획 : + 위험 계획 수립

2. 데이터 준비 : 데이터 스토어 설계, 데이터 매핑 정의서, 수집 및 정합성 점검

3. 데이터 분석 : 분석용 데이터셋 준비, 분석, 모델링, 모델 평가 및 검증

4. 시스템 구현 : 설계, 구현, 테스트, 운영

5. 평가 및 전개 : 모델 발전, 성과 보고

 

(33) KDD 분석절차 5단계 – 패턴, 지식 찾을 때 (데이터데이터)

1. 데이터셋 선택 : 비즈니스 도메인, 목표 설정, 타겟 데이터 생성

2. 데이터 전처리 : 재가공, 추가 데이터셋 선택

3. 데이터 변환 : 변수 선택, 차원 축소, train, test set 준비

4. 데이터 마이닝 : train 이용해 기법 선택, 알고리즘 적용

5. 해석 / 평가 : 평가, 업무 활용 방안 마련

 

(34) CRISP-DM 6단계 – 약간 더 세분화

1. 업무 이해 : 목적, 상황, 목표 파악, 프로젝트 계획 수립

2. 데이터 이해 : 데이터 수집, 기술 분석, 탐색, 품질 확인

3. 데이터 준비 : 분석용 데이터셋 준비, 정제, 통합, 포맷팅

4. 모델링 : 기법 선택, 테스트 계획 설계, 모델 작성, 모델 평가

5. 평가 : 분석결과, 모델링 과정, 모델 적용성 평가

6. 전개 : 모니터링, 유지보수 계획, 프로젝트 리뷰

 

(35) 분석과제 우선순위 평가 (포트폴리오 사분면) – 난이도/시급성 (난시)

 

(36) 분석 로드맵 수립

분석 체계 도입 – 분석 유효성 검증 – 분석 확산 및 고도화

 

(37) 분석요건 정의 프로세스

분석요건 도출 – 수행방안 설계 – 분석요건 확정

 

(38) NCS 빅데이터 분석절차 및 계획 수립

분석 요건 정의 – 데이터 확보 – 데이터 탐색 – 모델링 – 결과 적용

 

(39) 데이터 유형 – 수집 방법

정형 데이터, 반정형 데이터, 비정형 데이터

- 정형 : DBMS, 스프레드 시트 - ETL, FTP, Open API

- 반정형 : HTML, XML, JSON, 웹 문서, 웹로그, 센서 데이터 - 크롤링, RSS, Open API, FTP

- 비정형 : 소셜 데이터, 문서, 이미지, 오디오, 비디오, IoT - 크롤링, RSS, Open API, FTP, 스트리밍

 

(40) 데이터 척도 : 수집된 정도가 다른 정보와 구분되는 특성, 질적 VS 양적 데이터

- 질적 데이터 : 범주형, 빈도수 측정

명목 – 비교 불가, 연산 불가

순위(서열) – 학년, 석차

- 양적 데이터 : 연속형, 통계/산술 측정

구간(등간) – 절대적 원점 존재하지 않음, 0도 값임 (온도, 지수, 점수)

비율 – 절대적 원점 존재, 0은 값이 아님 (몸무게, 거리, 나이, 시간)

 

(41) 데이터 변환방법 5가지

1. 평활화 – 이상치 제거

2. 집계 – 분석 위한 큐브 생성, 총계 계산

3. 일반화(표준화) – 스케일 변화 : 로그 스케일

4. 정규화 – 특정 범위 내에 들어갈 수 있도록 이상값 변환 – min-max, z-score, 소수 스케일링

5. 범주화 – 이산화(연속형을 셀 수 있는 이산변수로), 이진화

 

(42) 데이터 축소, 차원 축소, 데이터 압축

- 데이터 축소 : 같은 정보량, 크기 축소

- 차원 축소 : 잡음 제거, 속성의 최소 집합 찾음, PCA/샘플링

- 데이터 압축 : 데이터 인코딩 변환, 무손실압축기법(BMP)/손실압축기법(JPEG)

 

(43) 테이블 모델링 – 스타, 스노우

1. 스타 스키마 = 조인 스키마 : 비정규화, 데이터 중복, 적재 많은 시간

2. 스노우 플레이크 스키마 : 복잡, 조인 테이블 증가, 쿼리 난이도 증가

 

(44) ETL, CDC - 데이터 추출/변환해 ODS, DW, DM에 데이터 적재하는 작업

- ETL : 완료된 데이터 적재, 데이터 취합 용도, 변경 데이터 적재, 적재 시점

- CDC : 실시간/준실시간 적재, 이벤트 감지 용도, 변경 로그 관리, 모든 로그 적재

 

ODS – 운영 데이터 스토어, 데이터 추가 작업 위해 데이터 추출 통합 DB

 

(45) 데이터 웨어하우스

- 축적된 데이터를 공통의 형식으로 변환해 관리하는 DB

- ERP, CRM, SCM 기업 데이터 담아두고 분석할 때 참고 데이터로 분석

- (통 비휘 주시)

주제 지향성=주제 중심성 / 통합성(혼재된 DB 통합) / 시계열성(이력 존재) / 비휘발성=영속성 (읽기 전용)

 

(46) 데이터 웨어하우스 VS 데이터 레이크

1. 데이터 웨어하우스 : write, SQL/BI로 액세스, 정제 데이터, 높은 비용, 데이터 접근 제한적

2. 데이터 레이크 : read, No-SQL/SPARK 등으로 액세스, 로 데이터, 저렴 비용, 데이터 접근성 좋음, 저장 용량 확장성, 리얼 타임 데이터 분석 가능, 분석 솔루션과 연동 편리

 

(47) 하둡 에코시스템 – 에코시스템 관리, 분석/관리, 저장/처리, 데이터 수집/연결, 데이터 리소스

- 에코시스템 관리 : ZooKeeper, Oozie(주기적), Hue(웹 기반), Airflow(웹 UI), HCatalog(테이블 뷰)

- 분석/관리 : Hive(SQL, 자동 맵리듀스, 자바기반), Spark SQL, Mahout(머신러닝용), Presto(SQL 형태)

- 저장/처리 : MapReduce(분산처리), Yarn(맵리듀스 관리), Spark(인메모리, 실시간 분석), No-SQL(확장성, 가용성)

- 수집/연결 : Sqoop(DB), Flume(반/비정형, 로그), Kafka(분산형 스트리밍), Storm(실시간, 장애 대응 능력)

 

 

 

 

 

 

 

+ 참고 자료 및 출처

 

[위키북스] 2021 빅데이터분석기사 필기

 

 

 

댓글