<1. 빅데이터 분석 기획>
(1) 데이터 유형 – 정량적, 정성적
정량적 : 수치 표현 가능 데이터, 저장/검색/분석 용이
정성적 : 정형화되지 않은 데이터, 많은 비용과 투자 필요
(2) 암묵지와 형식지 – 암묵지가 형식지로 표출, 연결되면 지식으로 형성되는 상호작용
암묵지 : 공통화, 내면화, 경험으로 체득, 머릿속에만 있는 지식
형식지 : 표출화, 연결화, 문서/매뉴얼 등 공유가능한 지식
(3) DIKW 피라미드 – 데이터/정보/지식/지혜
데이터 : 객관적인 사실
정보 : 가공, 처리된 데이터 속에서 의미 도출 – 유의미하지 않을 수 있다.
지식 : 구조화해 유의미한 정보 도출, 개인 경험 결합해 고유의 지식으로 내재화
지혜 : 지식의 축적과 아이디어가 결합되어 창의적임.
(4) 데이터베이스 특징
정보 축적, 전달 : 기계 가독성, 검색 가능성, 원격 조작성
정보 이용 : 신속한 획득, 원하는 정보 정확하게, 경제적
정보 관리 : 일정한 질서, 구조로 체계적, 추가 및 갱신이 용이
정보기술발전 : 정보처리, 소프트웨어, 하드웨어, 네트워크 기술 발전
경제, 산업적 : 필요한 정보 신속 제공, 이용하며 효율적, 국민 편의 증진
(5) 부문별 데이터베이스
물류 : CVO, EDI, CALS, PORT-MIS, KROIS
지리 : GIS, 4S, LBS, SIM
교통 : ITS, 교통, 대국민서비스 확대
의료 : 전자의무기록, HL7, U헬스, PACS
교육 : ICT 교육, NEIS
(6) 용어
DW (Data Warehouse) : 공통 형식으로 변환해 관리
EDW : 전사적 DW , BPR/CRM/BSC 같은 다양한 분석 애플리케이션 원천
CRM : 고객관계관리, 커뮤니케이션/마케팅 기반 관계유지, LTV(고객생애가치) 향상
OLTP : 온라인 거래 처리, 여러 이용자가 DB 갱신/조회 등 단위작업처리 방식,
정보 수집, 조직 내 공유 위한 MIS 등 영역별 구축되는 단순 자동화 시스템
OLAP : 온라인 분석 프로세스, 대화식 정보 분석, 단독 존재하지는 못하고, DW/DM와 연관,
데이터를 전략적 정보로 변환, 분석 중심 시스템으로 구축 변화
SCM : 공급망 관리, 공급망 단계 최적화 관리
EAI : 전사적 응용 프로그램 통합
KPI : 기업 목표 달성 성과지표, 목표 수립, 모니터링, 유효성 평가
BI : 데이터 수집, 분석 활용해 효율적 의사 결정하도록 연구하는 학문
(7) 빅데이터 특징 – 3V
Volume (양)
Variety (다양성) – 비정형 데이터
Velocity (속도) – 실시간 정보
+ Veracity (정확성) , Value (가치)
(8) 빅데이터 기대 표현
산업혁명의 석탄/철 : 제조업, 서비스 분야 생산성 향상, 사회 전반 혁명적 변화
21세기 원유 : 산업 전반의 생산성 향상, 새로운 범주 산업
렌즈 : 산업 발전에 큰 영향
플랫폼 : 다양한 서드파티 비즈니스에 활용
(9) 빅데이터 분석 변화
사전처리 -> 사후처리
표본조사 -> 전수조사
질 -> 양
인과관계 -> 상관관계
(10) 빅데이터 영향
투명성 제고, 시뮬레이션, 고객 세분화 / 맞춤 서비스, 알고리즘 활용해 의사결정, 비즈니스 혁신
(11) 빅데이터 경영혁신
생산성 증가 -> 발견 문제 해결 -> 의사결정 향상 -> 새로운 고객가치 비즈니스 창출
(12) 7가지 빅데이터 테크닉
1. 연관규칙 학습 – 상관관계 찾기
2. 유형분석 – 분류
3. 유전 알고리즘 – 최적화
4. 머신러닝 – 예측
5. 회귀분석 – 두 변인관계 파악
6. 감정분석
7. 소셜 네트워크 분석 (SNA) – 오피니언 리더, 소셜 관계 파악
(13) 빅데이터 위기요인, 통제방안
위기요인 – 사생활 침해, 책임 원칙 훼손, 데이터 오용
통제방안 – 제공자의 동의가 아닌 사용자의 책임, 결과 기반 책임 원칙 고수, 알고리즘 접근권 보장
(14) 아메리칸 항공 vs 사우스웨스트 항공
비슷한 수익관리 모델 – 단순 최적화 가격 책정
(15) 산업별 일차원적 분석
금융 : 신용점수, 사기탐지, 가격책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
– 수요/공급 X
에너지 : 트레이딩, 수요/공급 예측
병원 : 가격 책정, 고객 로열티, 수익 관리
정부 : 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
(16) 데이터사이언티스트 역량
하드스킬 : 이론적 지식, 기술 숙련
소프트스킬 : 통찰력, 설득, 협력
(17) 가치 패러다임 (=시대 프레임) 변화
디지털화 -> 연결 (디지털 정보들을 연결) -> 에이전시 (복잡한 연결로 인해 믿을 만하게 관리)
(18) 분석 준비도 평가 (분석 환경 우선 조성 -> 분석 업무 도입)
분석 업무 파악, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라
(19) 분석 성숙도 평가 – CMMI 모델
(도입 -> 활용 -> 확산 -> 최적화) (비즈니스, 조직/역량, IT)
도입 : 분석 시작, 환경 구축
활용 : 분석 결과 업무 적용
확산 : 전사 차원 분석 관리, 공유
최적화 : 혁신 및 성과 향상 기여
비즈니스 부문
- 도입 : 실적 분석/통계, 정기 보고, 운영 데이터 기반
- 활용 : 미래 결과 예측, 시뮬레이션, 운영 데이터 기반
- 확산 : 전사성, 실시간 분석, 프로세스 3.0, 분석규칙 관리, 이벤트 관리
- 최적화 : 외부 환경 분석 활용, 실시간 분석, 비즈니스 모델 진화
조직/역량 부문
- 도입 : 일부 부서, 담당자 역량 의존
- 활용 : 전문담당부서, 분석 기법 도입, 관리자가 분석 수행
- 확산 : 전사 모든 부서 수행, 분석 COE 운영, 데이터 사이언티스트 확보
- 최적화 : 데이터 사이언스 그룹, 경영진 분석 활용, 전략 연계
IT 부문
- 도입 : 데이터 웨어하우스, 데이터 마트, ETL/EAI, OLAP
- 활용 : 실시간 대시보드, 통계 분석 환경
- 확산 : 빅데이터 관리 환경, 시뮬레이션/최적화, 비주얼 분석, 분석 전용 서버
- 최적화 : 분석 협업환경, 분석 SandBox, 프로세스 내재화, 빅데이터 분석
(20) 성숙도, 준비도 진단결과 (성,준)
준정확도 – 준비형, 정착형, 확산형, 도입형
준비도, 성숙도 낮음 – 준비형 : 사전준비 필요
준비도 낮음, 성숙도 높음 – (분석)정착형 : 제한적 분석, 분석의 정착 필요
준비도 높음, 성숙도 높음 – 확산형 : 지속적 확산이 가능
준비도 높음, 성숙도 낮음 – (분석)도입형 : 데이터 분석 바로 도입 가능
(21) 분석 조직 유형 – 집중구조, 기능구조, 분산구조 : 조집분기
집중구조 : 별도 조직 구성, 업무 중복 가능, 모든 분석 업무
분산구조 : 현업부서에 직접 배치, 분석결과 신속
기능구조 : 일반적, 특정 업무 부서 국한, 업무 중복 가능, 핵심분석 어려움
(22) 분석과제 프로세스
아이디어 -> 과제 후보 제안 -> 분석과제 확정 -> 팀 구성 ->
분석과제 실행 -> 분석과제 진행 관리 -> 결과 공유/개선
(23) 빅데이터 에코시스템
여러 기술, 프레임워크 등 여러 솔루션을 하나로 묶어 에코시스템 구축
(24) 머신러닝과 딥러닝 ( 머신러닝 > 딥러닝 )
머신러닝 : 데이터 분석, 학습한 내용 적용
딥러닝 : 인공신경망 분석 기술, 머신러닝보다 더 진보적, 예측 정확성 스스로 판단
(25) 마이데이터 운동 – 정보의 주체가 개인정보 권한을 갖고 관리하자는 취지
자기정보결정권 + 데이터 경제 활성화
- 데이터 통제(개인이 통제권 가짐)
- 데이터 제공(개인이 요구할 때 쉽게 접근, 이용)
- 데이터 활용(개인의 요청으로 자유로운 데이터 이동, 결과를 개인이 투명하게 알 수 있어야 함)
(26) 우리나라 개인정보 범위 : 다른 정보와 결합해 식별할 수 있는 정보, 제한적
(27) 프라이버시
산업사회 : 남에게 방해받지 않을 소극적 권리
-> 정보화사회 : 내 정보가 침해로부터 자유로울 권리
-> 4차 산업사회 : 내 정보 가치를 보호받을 권리
(28) 개인정보 비식별화 기술
가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹
- 가명처리 : 휴리스틱 가명화, 암호화, 교환방법
- 총계처리 : 총계처리, 부분총계, 라운딩, 재배열
- 데이터 삭제 : 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부 삭제
- 데이터 범주화 : 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩
- 데이터 마스킹 : 임의 잡음 추가, 공백, 대체
(29) NCS 빅데이터 분석 기획 능력 요소
도메인 이슈 도출, 분석 목표 수립, 프로젝트 계획, 보유 데이터 자산 확인 (예산 X)
- 도메인 이슈 도출 : AS/IS(현재 상황), 개선방향 도출, SOW(범위 설정)
- 분석 목표 수립 : 분석 목표 정의서 확정
- 프로젝트 계획 : 프로젝트 계획 설계 – WBS 작성
- 보유 데이터 자산 확인 : 내/외부 데이터 활용 수준, 유형 점검
(30) 하향식, 상향식 접근법 (분석대상 O / X)
하향식 : 분석 방법 알면 최적화 , 모르면 솔루션 개발
상향식 : 분석 방법 알면 인사이트, 모르면 발견
(31) 분석과제 발굴 방법론 (하향식 VS 상향식)
1. 하향식 : 문제 탐색 – 문제 정의 – 해결방안 탐색 – 타당성 검토
2. 상향식 : 지도/비지도 학습 – 프로토타입
1. 하향식
- 문제 탐색 4가지
① 비즈니스 모델 탐색 : 업무-제품-고객(고제업) + 규제/감사 + 지원 인프라 영역
② 분석기회 발굴 범위 확장 : 기업/산업 환경 중심 - 거시적, 경쟁자, 시장 니즈, 역량(내/외부) – 거경시역
③ 외부 참조 모델 기반 문제 탐색 : Quick/Easy, 산업별/서비스별 분석과제 POOL 브레인스토밍
④ 분석 유스케이스 : 유사 사례 유스케이스(업무 흐름설명) 탐색
- 문제 정의 : 데이터 분석 관점으로 전환
- 해결방안 탐색 4가지 : 기존 시스템으로 가능 여부, 기업 분석역량 유무 판단해 탐색
① 기존 시스템 O, 분석 역량 O : 기존
② 기존 시스템 O, 분석 역량 X : 역량 확보 – 교육/채용
③ 기존 시스템 X, 분석 역량 O : 시스템 고도화
④ 기존 시스템 X, 분석 역량 X : 전문업체 아웃소싱
- 타당성 검토 : 경제적, 기술적 타당성 검토 (분석 역량, 분석 시스템 환경)
2. 상향식
- 지도/비지도학습
지도 : 머신러닝, 의사결정트리, ANN
- 프로토타입(시행착오 해결법)
(32) 빅데이터 분석 방법론 5단계 – 널리 사용
1. 분석 기획 : + 위험 계획 수립
2. 데이터 준비 : 데이터 스토어 설계, 데이터 매핑 정의서, 수집 및 정합성 점검
3. 데이터 분석 : 분석용 데이터셋 준비, 분석, 모델링, 모델 평가 및 검증
4. 시스템 구현 : 설계, 구현, 테스트, 운영
5. 평가 및 전개 : 모델 발전, 성과 보고
(33) KDD 분석절차 5단계 – 패턴, 지식 찾을 때 (데이터데이터)
1. 데이터셋 선택 : 비즈니스 도메인, 목표 설정, 타겟 데이터 생성
2. 데이터 전처리 : 재가공, 추가 데이터셋 선택
3. 데이터 변환 : 변수 선택, 차원 축소, train, test set 준비
4. 데이터 마이닝 : train 이용해 기법 선택, 알고리즘 적용
5. 해석 / 평가 : 평가, 업무 활용 방안 마련
(34) CRISP-DM 6단계 – 약간 더 세분화
1. 업무 이해 : 목적, 상황, 목표 파악, 프로젝트 계획 수립
2. 데이터 이해 : 데이터 수집, 기술 분석, 탐색, 품질 확인
3. 데이터 준비 : 분석용 데이터셋 준비, 정제, 통합, 포맷팅
4. 모델링 : 기법 선택, 테스트 계획 설계, 모델 작성, 모델 평가
5. 평가 : 분석결과, 모델링 과정, 모델 적용성 평가
6. 전개 : 모니터링, 유지보수 계획, 프로젝트 리뷰
(35) 분석과제 우선순위 평가 (포트폴리오 사분면) – 난이도/시급성 (난시)
(36) 분석 로드맵 수립
분석 체계 도입 – 분석 유효성 검증 – 분석 확산 및 고도화
(37) 분석요건 정의 프로세스
분석요건 도출 – 수행방안 설계 – 분석요건 확정
(38) NCS 빅데이터 분석절차 및 계획 수립
분석 요건 정의 – 데이터 확보 – 데이터 탐색 – 모델링 – 결과 적용
(39) 데이터 유형 – 수집 방법
정형 데이터, 반정형 데이터, 비정형 데이터
- 정형 : DBMS, 스프레드 시트 - ETL, FTP, Open API
- 반정형 : HTML, XML, JSON, 웹 문서, 웹로그, 센서 데이터 - 크롤링, RSS, Open API, FTP
- 비정형 : 소셜 데이터, 문서, 이미지, 오디오, 비디오, IoT - 크롤링, RSS, Open API, FTP, 스트리밍
(40) 데이터 척도 : 수집된 정도가 다른 정보와 구분되는 특성, 질적 VS 양적 데이터
- 질적 데이터 : 범주형, 빈도수 측정
명목 – 비교 불가, 연산 불가
순위(서열) – 학년, 석차
- 양적 데이터 : 연속형, 통계/산술 측정
구간(등간) – 절대적 원점 존재하지 않음, 0도 값임 (온도, 지수, 점수)
비율 – 절대적 원점 존재, 0은 값이 아님 (몸무게, 거리, 나이, 시간)
(41) 데이터 변환방법 5가지
1. 평활화 – 이상치 제거
2. 집계 – 분석 위한 큐브 생성, 총계 계산
3. 일반화(표준화) – 스케일 변화 : 로그 스케일
4. 정규화 – 특정 범위 내에 들어갈 수 있도록 이상값 변환 – min-max, z-score, 소수 스케일링
5. 범주화 – 이산화(연속형을 셀 수 있는 이산변수로), 이진화
(42) 데이터 축소, 차원 축소, 데이터 압축
- 데이터 축소 : 같은 정보량, 크기 축소
- 차원 축소 : 잡음 제거, 속성의 최소 집합 찾음, PCA/샘플링
- 데이터 압축 : 데이터 인코딩 변환, 무손실압축기법(BMP)/손실압축기법(JPEG)
(43) 테이블 모델링 – 스타, 스노우
1. 스타 스키마 = 조인 스키마 : 비정규화, 데이터 중복, 적재 많은 시간
2. 스노우 플레이크 스키마 : 복잡, 조인 테이블 증가, 쿼리 난이도 증가
(44) ETL, CDC - 데이터 추출/변환해 ODS, DW, DM에 데이터 적재하는 작업
- ETL : 완료된 데이터 적재, 데이터 취합 용도, 변경 데이터 적재, 적재 시점
- CDC : 실시간/준실시간 적재, 이벤트 감지 용도, 변경 로그 관리, 모든 로그 적재
ODS – 운영 데이터 스토어, 데이터 추가 작업 위해 데이터 추출 통합 DB
(45) 데이터 웨어하우스
- 축적된 데이터를 공통의 형식으로 변환해 관리하는 DB
- ERP, CRM, SCM 기업 데이터 담아두고 분석할 때 참고 데이터로 분석
- (통 비휘 주시)
주제 지향성=주제 중심성 / 통합성(혼재된 DB 통합) / 시계열성(이력 존재) / 비휘발성=영속성 (읽기 전용)
(46) 데이터 웨어하우스 VS 데이터 레이크
1. 데이터 웨어하우스 : write, SQL/BI로 액세스, 정제 데이터, 높은 비용, 데이터 접근 제한적
2. 데이터 레이크 : read, No-SQL/SPARK 등으로 액세스, 로 데이터, 저렴 비용, 데이터 접근성 좋음, 저장 용량 확장성, 리얼 타임 데이터 분석 가능, 분석 솔루션과 연동 편리
(47) 하둡 에코시스템 – 에코시스템 관리, 분석/관리, 저장/처리, 데이터 수집/연결, 데이터 리소스
- 에코시스템 관리 : ZooKeeper, Oozie(주기적), Hue(웹 기반), Airflow(웹 UI), HCatalog(테이블 뷰)
- 분석/관리 : Hive(SQL, 자동 맵리듀스, 자바기반), Spark SQL, Mahout(머신러닝용), Presto(SQL 형태)
- 저장/처리 : MapReduce(분산처리), Yarn(맵리듀스 관리), Spark(인메모리, 실시간 분석), No-SQL(확장성, 가용성)
- 수집/연결 : Sqoop(DB), Flume(반/비정형, 로그), Kafka(분산형 스트리밍), Storm(실시간, 장애 대응 능력)
+ 참고 자료 및 출처
[위키북스] 2021 빅데이터분석기사 필기
'Career > Certificate' 카테고리의 다른 글
[빅데이터분석기사] 실기 - 작업형 제 1유형 (2) | 2021.06.09 |
---|---|
[빅데이터분석기사] 실기 예시 풀이 (2) | 2021.05.31 |
[빅데이터분석기사] 필기 - 4. 빅데이터 결과 해석 (0) | 2021.05.30 |
[빅데이터분석기사] 필기 - 3. 빅데이터 모델링 (0) | 2021.05.30 |
[빅데이터분석기사] 필기 - 2. 빅데이터 탐색 (0) | 2021.05.30 |
댓글