본문 바로가기

Archive109

[빅데이터분석기사] 실기 예시 풀이 단답형 (10문제) 여러 명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어는 무엇인가? --> DBMS 작업형 제 1유형 : 데이터 처리 영역 (3문제) mtcars 데이터셋(data/mtcars.csv)의 qsec 컬럼을 최소최대 척도(min-max-scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. # 출력을 원하실 경우 print() 활용 # 예) print(df.head()) # 답안 제출 예시 # print(레코드 수) import pandas as pd from sklearn.preprocessing import MinMaxScaler mtcars=pd.read_csv('data/mtcars.csv') s.. 2021. 5. 31.
[빅데이터분석기사] 필기 - 4. 빅데이터 결과 해석 (1) 군집 분석 평가 – 외부/내부 외부평가: 자카드 계수 평가(두 군집 유사도), 분류모형 평가 방법 응용(ROC, 혼동 행렬) 내부평가 : 단순계산법(군집 개수 .. ), 거리계산, 엘보 메소드 (2) 혼동행렬 – 예측 위주, 정확도/정밀도/재현율(민감도,참긍정율)/특이도(참부정율)/거짓긍정율/F1-score 정확도 : 전체에서 True 분류, 올바르게 분류 정밀도 : 예측 positive에서 실제 positive 분류 재현율 TPR : 실제 positive에서 실제 positive 분류 -> 초기환자 특이도 TNR: 실제 negative에서 실제 negative 분류 -> 진단 확신 거짓긍정율 FPR: 실제 negative에서 가짜 positive 분류 F1-Sco.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 3. 빅데이터 모델링 (1) 회귀분석 가정 – 선형성, 독립성(잔차 - 독립변수), (잔차) 등분산성, 정규성, 비상관성 (2) 회귀분석 종류 – 단순, 다중, 다항, 비선형 다중 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 선형 다항 : 독립변수 2개 이상, 종속변수 1개, 독립-종속 관계가 1차 함수 이상, 교차항 (3) 독립변수, 종속변수 표현 독립변수 : 설명, 실험, 예측, 통제, 조작변수 종속변수 : 결과, 반응, 목표, 출력, 의존변수 (4) ANOVA – 3개 이상 집단 간 평균 비교, 일원/이원 일원 분산분석 : X, y 1개씩 이원 분산분석 : X 2개, 독립변수 간 교호작용 확인 (5) 로지스틱 회귀분석 – 도출된 계수는 exp 지수화 해줘야, 분류 독립변수의 선.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 2. 빅데이터 탐색 (1) 데이터 결측값 유형 – 비무작위, 무작위, 완전 무작위 비무작위 (NMAR) : 결측값이 결과값에 영향 미침 무작위 (MAR) : 연관은 있지만 결과값에 영향 미치지 않음 완전 무작위(MCAR) : missing completely, 완전 무관한 결측, 제거가 가장 효과적 (2) 결측값 대체 방법 6가지 – 평균대체, 단순확률대체, 보삽법, 평가치 추정법, 다중 대치법, 완전 정보 최대우도법 (평평보단최다) 평균대체 : 대푯값으로 대체 평가치추정법 : 맥락/사정 고려, 행렬자료 고려 보삽법 : 시계열 누락 보완, 나머지로 평균 계산 단순확률대체 : 표준오차 과소추정 문제 보완, 단순 확률 완전정보 최대우도법 : 최대우도 기준 가중 평균 구성 다중 대치법 : 완성한 데이터.. 2021. 5. 30.
[빅데이터분석기사] 필기 - 1. 빅데이터 분석 기획 (1) 데이터 유형 – 정량적, 정성적 정량적 : 수치 표현 가능 데이터, 저장/검색/분석 용이 정성적 : 정형화되지 않은 데이터, 많은 비용과 투자 필요 (2) 암묵지와 형식지 – 암묵지가 형식지로 표출, 연결되면 지식으로 형성되는 상호작용 암묵지 : 공통화, 내면화, 경험으로 체득, 머릿속에만 있는 지식 형식지 : 표출화, 연결화, 문서/매뉴얼 등 공유가능한 지식 (3) DIKW 피라미드 – 데이터/정보/지식/지혜 데이터 : 객관적인 사실 정보 : 가공, 처리된 데이터 속에서 의미 도출 – 유의미하지 않을 수 있다. 지식 : 구조화해 유의미한 정보 도출, 개인 경험 결합해 고유의 지식으로 내재화 지혜 : 지식의 축적과 아이디어가 결합되어 창의적임. (4) 데이터베이스 특징 정보 축적, 전달 : 기계 .. 2021. 5. 30.
[Tableau] 11. 실적 모니터링 대시보드 #,##0,,백만원;-#,##0,,백만원 날짜 서식 - MM.DD 전월과의 차이 : 비율 차이 - date 추가해 자세히 - 사용자 지정 - 세부정보 : 연도/월 - 나타내고 싶은 연/월빼고 숨기기 - 집계 (2)에서 다음을 사용하여 계산 - 테이블 아래로(전월과 비교해 비율차이 나타냄) - 라벨 서식 사용자지정으로 ▲0.0%;▼0.0% - 색상 편집 - 고급 - 가운데 0으로 설정 축 편집 - 범위 0 포함 해제 - 축 0값으로 시작하지 않아도 됨 각 행 또는 열에 독립적인 축 범위 설정 통합 성장률 : 첫번째 대비 얼마나 성장했는지를 표시 레이블 - 글꼴 - 글꼴 마크 색상 일치 선택 IF SUM([Sales]) = WINDOW_MAX(SUM([Sales])) THEN SUM([Sales]) ELSE.. 2021. 5. 29.
[Tableau] 10. Second date Second purchase : { FIXED [Customer ID] : MIN(IIF([[Order Date]] = [First Customer]]], null, [Order Date]))} ISNULL: ISNULL([second customer]) 51 : { EXCLUDE [ISNULL] : COUNTD([Customer Name]) } mark : IIF([ISNULL],'★','') 2021. 5. 19.
[Tableau] 9. LOD 1. VLOD 화면이 어떻게 나눠져있는지 상태 - 어떤 필드, 어떤 측정값으로 VLOD를 결정하는 것은 차원뿐이다. 도구설명, 필터는 차원 올려도 VLOD를 바꿀 수 있는 위치가 아니다. 2. LOD expression : INCLUDE, EXCLUDE, FIXED, Syntax (1) INCLUDE Order ID > Product name : 장바구니 > 물건 { INCLUDE [Order ID] : SUM([Sales]) } : 원래의 행기반이 아닌 Order ID level에서 표현 -> 집계 선택 { INCLUDE DATETRUNC('month',[일자]) : MAX([월간 목표 생산량]) } : 월별로 목표치 가져오기 (2) EXCLUDE 화면 안의 필드를 계산할 때 없는 것처럼 계산 { EX.. 2021. 5. 13.
[Tableau] 8. Pareto, MA, Rank 1. 파레토차트 축을 비율로 나타내는 법 축으로 나타나있는 이름을 세부 정보로 복사 -> 정렬 -> 필드 Sales로 -> 이름 카운트 고유로 압축 -> 행/열 모두 테이블 계산 - 누적, 특정 차원 이름 선택 -> 순서로 나옴 -> 행/열 보조계산 추가 구성비율 도구설명 추가하기 INDEX(), SIZE() -> 테이블 계산 편집 -> 특정 차원 설정 2. Moving Average 이동평균 WINDOW_AVG(SUM([Metric Selection]), 1-[Moving Average], 0) 3. RANK 랭킹 RANK 만든 후 불연속형 설정 매개변수별로 랭킹 만들기 RANK( CASE [Sort by] WHEN 1 THEN SUM([Sales]) WHEN 2 THEN SUM([Profit]) WH.. 2021. 5. 13.
[Tableau] 7. 테이블 계산 1. 테이블 계산 특징 4가지 계산 : low(행), 집계, 테이블 계산, LOD 중 하나 Secondary Calculation : First Calc는 집계 계산 Configurable : 설정을 다르게 함으로써 value가 바뀜 2. 구획 테이블 - 처음부터 끝까지 : 옆으로, 아래로, 옆에서 아래로, 아래에서 옆으로 패널 - 한 구획 셀 - 하나의 데이터 3. 테이블 계산 테이블 계산 종류 : INDEX, SIZE, RANK, TOTAL, WINDOW 테이블 계산 편집 - 특정 차원 - ~별로는 체크마크 해제 - 체크마크 순서 변경 가능 (1) INDEX() : 현재 줄 서있는 형태로 인덱스 번호 붙여줌 (2) SIZE() : 가장 마지막 인덱스번호 가져옴 (3) RANK(SUM([SALES])).. 2021. 5. 12.