[빅데이터분석기사] 필기 - 3. 빅데이터 모델링
(1) 회귀분석 가정 – 선형성, 독립성(잔차 - 독립변수), (잔차) 등분산성, 정규성, 비상관성 (2) 회귀분석 종류 – 단순, 다중, 다항, 비선형 다중 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 선형 다항 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 1차 함수 이상, 교차항 (3) 독립변수, 종속변수 표현 독립변수 : 설명, 실험, 예측, 통제, 조작변수 종속변수 : 결과, 반응, 목표, 출력, 의존변수 (4) ANOVA – 3개 이상 집단 간 평균 비교, 일원/이원 일원 분산분석 : X, y 1개씩 이원 분산분석 : X 2개, 독립변수 간 교호작용 확인 (5) 로지스틱 회귀분석 – 도출된 계수는 exp 지수화 해줘야, 분류 독립변수의 선..
2021. 5. 30.
[빅데이터분석기사] 필기 - 2. 빅데이터 탐색
(1) 데이터 결측값 유형 – 비무작위, 무작위, 완전 무작위 비무작위 (NMAR) : 결측값이 결과값에 영향 미침 무작위 (MAR) : 연관은 있지만 결과값에 영향 미치지 않음 완전 무작위(MCAR) : missing completely, 완전 무관한 결측, 제거가 가장 효과적 (2) 결측값 대체 방법 6가지 – 평균대체, 단순확률대체, 보삽법, 평가치 추정법, 다중 대치법, 완전 정보 최대우도법 (평평보단최다) 평균대체 : 대푯값으로 대체 평가치추정법 : 맥락/사정 고려, 행렬자료 고려 보삽법 : 시계열 누락 보완, 나머지로 평균 계산 단순확률대체 : 표준오차 과소추정 문제 보완, 단순 확률 완전정보 최대우도법 : 최대우도 기준 가중 평균 구성 다중 대치법 : 완성한 데이터..
2021. 5. 30.
[빅데이터분석기사] 필기 - 1. 빅데이터 분석 기획
(1) 데이터 유형 – 정량적, 정성적 정량적 : 수치 표현 가능 데이터, 저장/검색/분석 용이 정성적 : 정형화되지 않은 데이터, 많은 비용과 투자 필요 (2) 암묵지와 형식지 – 암묵지가 형식지로 표출, 연결되면 지식으로 형성되는 상호작용 암묵지 : 공통화, 내면화, 경험으로 체득, 머릿속에만 있는 지식 형식지 : 표출화, 연결화, 문서/매뉴얼 등 공유가능한 지식 (3) DIKW 피라미드 – 데이터/정보/지식/지혜 데이터 : 객관적인 사실 정보 : 가공, 처리된 데이터 속에서 의미 도출 – 유의미하지 않을 수 있다. 지식 : 구조화해 유의미한 정보 도출, 개인 경험 결합해 고유의 지식으로 내재화 지혜 : 지식의 축적과 아이디어가 결합되어 창의적임. (4) 데이터베이스 특징 정보 축적, 전달 : 기계 ..
2021. 5. 30.