본문 바로가기

Career/Certificate14

[빅데이터분석기사] 필기 - 4. 빅데이터 결과 해석 (1) 군집 분석 평가 – 외부/내부 외부평가: 자카드 계수 평가(두 군집 유사도), 분류모형 평가 방법 응용(ROC, 혼동 행렬) 내부평가 : 단순계산법(군집 개수 .. ), 거리계산, 엘보 메소드 (2) 혼동행렬 – 예측 위주, 정확도/정밀도/재현율(민감도,참긍정율)/특이도(참부정율)/거짓긍정율/F1-score 정확도 : 전체에서 True 분류, 올바르게 분류 정밀도 : 예측 positive에서 실제 positive 분류 재현율 TPR : 실제 positive에서 실제 positive 분류 -> 초기환자 특이도 TNR: 실제 negative에서 실제 negative 분류 -> 진단 확신 거짓긍정율 FPR: 실제 negative에서 가짜 positive 분류 F1-Sco.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 3. 빅데이터 모델링 (1) 회귀분석 가정 – 선형성, 독립성(잔차 - 독립변수), (잔차) 등분산성, 정규성, 비상관성 (2) 회귀분석 종류 – 단순, 다중, 다항, 비선형 다중 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 선형 다항 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 1차 함수 이상, 교차항 (3) 독립변수, 종속변수 표현 독립변수 : 설명, 실험, 예측, 통제, 조작변수 종속변수 : 결과, 반응, 목표, 출력, 의존변수 (4) ANOVA – 3개 이상 집단 간 평균 비교, 일원/이원 일원 분산분석 : X, y 1개씩 이원 분산분석 : X 2개, 독립변수 간 교호작용 확인 (5) 로지스틱 회귀분석 – 도출된 계수는 exp 지수화 해줘야, 분류 독립변수의 선.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 2. 빅데이터 탐색 (1) 데이터 결측값 유형 – 비무작위, 무작위, 완전 무작위 비무작위 (NMAR) : 결측값이 결과값에 영향 미침 무작위 (MAR) : 연관은 있지만 결과값에 영향 미치지 않음 완전 무작위(MCAR) : missing completely, 완전 무관한 결측, 제거가 가장 효과적 (2) 결측값 대체 방법 6가지 – 평균대체, 단순확률대체, 보삽법, 평가치 추정법, 다중 대치법, 완전 정보 최대우도법 (평평보단최다) 평균대체 : 대푯값으로 대체 평가치추정법 : 맥락/사정 고려, 행렬자료 고려 보삽법 : 시계열 누락 보완, 나머지로 평균 계산 단순확률대체 : 표준오차 과소추정 문제 보완, 단순 확률 완전정보 최대우도법 : 최대우도 기준 가중 평균 구성 다중 대치법 : 완성한 데이터.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 1. 빅데이터 분석 기획 (1) 데이터 유형 – 정량적, 정성적 정량적 : 수치 표현 가능 데이터, 저장/검색/분석 용이 정성적 : 정형화되지 않은 데이터, 많은 비용과 투자 필요 (2) 암묵지와 형식지 – 암묵지가 형식지로 표출, 연결되면 지식으로 형성되는 상호작용 암묵지 : 공통화, 내면화, 경험으로 체득, 머릿속에만 있는 지식 형식지 : 표출화, 연결화, 문서/매뉴얼 등 공유가능한 지식 (3) DIKW 피라미드 – 데이터/정보/지식/지혜 데이터 : 객관적인 사실 정보 : 가공, 처리된 데이터 속에서 의미 도출 – 유의미하지 않을 수 있다. 지식 : 구조화해 유의미한 정보 도출, 개인 경험 결합해 고유의 지식으로 내재화 지혜 : 지식의 축적과 아이디어가 결합되어 창의적임. (4) 데이터베이스 특징 정보 축적, 전달 : 기계 .. 2021. 5. 30.