본문 바로가기
Analysis/Time series

Lecture 0. 데이터 분석 사이클

by 5ole 2021. 3. 10.

 

데이터 분석 사이클 - 분석 목적 이해

 

 

  • 0.  문제정의: 무엇을 분석할지 정한다

    문제정의가 없으면 분석은 시작할 필요가 없다
    문제정의에 많은 고민을 해야 한다
    문제정의에 모든 구성원이 동의할 수 있도록 끊임없이 커뮤니케이션 해야 한다
    1회성이 문제정의가 아니라 필요시 끊임없이 진화/변경시켜야 한다

 

  • 1. 데이터수집: 소스별 데이터 추출 및 저장(Loading)

    데이터가 없으면 분석은 시작할 필요가 없다
    문제 답의 보기후보가 데이터에 없으면 분석을 시작할 필요가 없다 (어떤 연령이 TV를 보는지 알고 싶은데 데이터에 연령이 없으면 불가)
    알고리즘/기술보다 데이터수집부터 시작하기 위한 작업을 착수해야 한다 데이터는 많을수록 좋지만 양보다(Row) 질(Column)을 늘려야 분석을 한 의미가 생긴다 보기가 데이터에 없으면 문제정의부터 새롭게 수정해야 한다

    Loading 목적: 각 소스별로 데이터를 수집함

 

  • 2. 데이터전처리: 기초통계(Descriptive Statistics) + 붙이기(Curation) + 없애기(Remove) + 채우기(Fill) + 필터(Filter) + 변경하기(Transform)

    Descriptive Statistics 목적: 하기 4개의 전처리 의사결정을 위한 기준으로 주로 활용
    Curation 목적: 각 소스별 데이터를 하나의 Database로 붙임
    Remove & Fill 목적: 데이터 오류를 제거하가나 비어있는 데이터를 채움
    Filter 목적: 분석범위에 관련된 보기(Feature)들만을 추려냄
    Transform 목적: 사람이 이해가 가능한 방식으로 데이터 자체를 변경함

 

  • 3. 데이터정리: 데이터 한곳에 담기(Data Warehouse) + 바꾸기 및 정리(Data Mart) + 분리(Data Split)

    데이터수집/전처리/정리 까지 전체 업무의 80% 이상을 차지한다
    1회성 수집/전저리/정리로 끝나지 않고 끊임없이 업데이트하고 진화시켜야 한다(이는 분석 알고리즘이 해주지 않는다)

    Data Warehouse 목적: 전처리 단계를 거친 1개의 Database를 주로 보관 및 무결점 유지 목적
    Data Mart 목적: Warehouse를 변경하지 않고 복사하여 조금 더 목적에 맞게 전처리를 거침
    Data Split 목적: 주로 과거(Train Data)와 미래(Test Data)를 구분하여 저장/알고리즘에 활용

 

  • 4. 데이터분석: 기초통계(Descriptive Statistics) + 모델링(Algorithm) + 검증(Evaluation) + 에러분석(Error Analysis)

    수학적으론 어려울 수 있지만 수동적으로 대응/활용이 가능하다
    알고리즘(또는 기계)은 정해진 검증수단을 따를뿐 우리의 문제에 관심이 없다
    각 알고리즘의 사용 목적에 대한 명확한 이해와 결과해석을 집중해서 습득해야 한다
    어떤 알고리즘 성능 뛰어난지 검증(Evaluation)은 결국 사람이기에 많은 고민을 해야 한다 알고리즘 적용시작이 중요한게 아니라 언제 끝내야 하는지 고민해야 한다

    Descriptive Statistics 목적: 어떤 분석 알고리즘을 선정할지 또는 Input/Output 형태를 결정하는 기준으로 활용
    Algorithm 목적: Input/Output의 형태 또는 분석목적에 따라 정해지는 편
    Evaluation 목적: 현 알고리즘 성능 확인 및 다음 업데이트를 위한 기준 설정
    Error Analysis 목적: 모든 데이터의 패턴/특징을 알고리즘이 반영하고 있음을 이해하기 위한 기준

 

  • 5. 결과정리: 시각화(Visualization/Dashboard) + 의사결정(Decision Support) + 지식화(Knowledge) + 공유(Reporting)

    0~4 단계를 무한대로 반복 및 각 단계를 업데이트하며 인싸이트를 뽑아낼 수 있어야 한다

    Visualization/Dashboard/Decision/Knowledge/Reporting 목적: 주로 고객에 맞춘 설명력을 제공하기 위함으로 일반화된 방향은 없음

 

 

+ 참고 자료 및 출처

 

  • 김경원 < 파이썬을 활용한 시계열 데이터 분석 A-Z  강의 >  ( 패스트캠퍼스 강의 )

댓글