본문 바로가기
Career/Certificate

[빅데이터분석기사] 실기 - 단답형 준비

by 5ole 2021. 6. 18.

 

단답형 준비 : 데이터 처리 영역 (10문제) X 3점

 

[위키북스] 2021 빅데이터분석기사 필기 책을 바탕으로 제가 공부하기 위해 정리한 내용입니다.

다소 세부적인 내용까지 정리되어 있으니 감안해서 보시길 바랍니다.

 

 

챕터 이름 설명 동의어
1.
빅데이터 분석 기획
정량적 데이터 수치로 표현할 수 있는 숫자, 도형, 기호 등의 데이터 정형 데이터
  정성적 데이터 언어, 문자 등의 정형화되지 않은 데이터 비정형 데이터
  암묵지 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식 공통화/내면화
  형식지 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식 표출화/연결화
  데이터 의미가 중요하지 않은 객관적 사실, 이론을 세우는데 기초가 되는 사실  
  정보 데이터의 가공,처리와 데이터 간 연관 관계 속에서 의미가 도출 된 것  
  지식 데이터를 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화 된 것  
  지혜 지식의 축적과 아이디어가 결합된 창의적 산물  
  데이터베이스 DB, 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체  
  DBMS 이용자가 쉽게 데이터베이스를 구축, 유지할 수 있게 하는 관리 소프트웨어  
  인하우스 DB 클라우드가 아닌 기업 내부에 DB 구축 및 관리  
  OLTP 1990년대 중반 이전, 정보의 수집과 공유 위해 기업 활동에서 영역별로 구축되던 단순 자동화 중심 시스템
데이터베이스의 데이터를 갱신, 조회하는 단위 작업 처리 방식
온라인 거래처리
 
  OLAP 분석이 중심이 되는 시스템 구축하며 데이터를 전략적 정보로 변환
사용자가 직접 대화식으로 정보를 분석하는 과정
DW, DM과 상호 연관
 
  CRM 고객관계관리, 양호한 관계 유지로 고객 생애 가치 향상  
  SCM 공급망 관리, 공급망 단계 최적화  
  DW 기간시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 정제. 변환해서 관리하는 데이터 베이스
ERP, CRM, SCM 등 기업에서 활용하는 시스템에서 생성되는 데이터를 모아둠
 
  EDW 기존 DW를 전사적으로 확장한 모델로 BPR, CRM, BSC 같은 분석 애플리케이션 원천  
  ERP 경영정보시스템의 한 종류, 회사의 모든 정보뿐 아니라 통합적 관리 시스템  
  EAI 기업 애플리케이션 통합, 전사적 응용 프로그램 통합
기업 정보 시스템들의 데이터를 연계 통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크
 
  BI 기업에서 데이터 수집, 분석하고 활용해 효율적인 의사결정 할 수 있는 방법 연구 학문  
  velocity 빅데이터의 특징 3V로 variety, volume, _______  
  사후처리 빅데이터가 만들어낸 변화로 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 인사이트 발굴  
  전수조사 데이터 처리비용이 감소하면서 데이터 활용 방법이 표본조사에서 변화한 조사방법  
  연관규칙 학습 어떤 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법으로 장바구니 분석, 상품 추천 등을 사용하는 기술  
  알고리즈미스트 알고리즘에 의해 불이익 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 갖춘 전문가  
  4차 산업혁명 정보통신 기술의 융합으로 이루어지는 차세대 산업혁명  
  분석 거버넌스 분석이 조직의 전략과 목표에 부합되게 운영하는 관리체계.
의사결정 및 책임 소재를 기술한 일종의 프레임워크
 
  정착형 분석 수준 진단결과로 준비도는 낮고 성숙도가 높으며 제한적 분석기법을 사용하며 분석의 정착 필요한 유형  
  준비형 분석 수준 진단결과로 준비도, 성숙도가 낮으며 사전 준비가 필요한 유형  
  확산형 분석 수준 진단결과로 준비도, 성숙도가 높으며 지속적 확산이 가능한 유형  
  도입형 분석 수준 진단결과로 준비도는 높고 성숙도가 낮으며 데이터 분석을 바로 도입할 수 있는 유형  
  데이터 거버넌스 기업의 데이터에 대해 정책, 지침 등 표준화된 관리체계를 수립하고 운영 위한 프레임워크 및 저장소 구축하는 것  
  집중구조 데이터 분석 조직의 유형으로 별도 조직 구성하며 회사의 모든 분석 업무를 전담 조직에서 담당하는 유형.
업무가 중복될 가능성이 있다
 
  기능구조 데이터 분석 조직의 일반적인 유형이며 각 해당 업무 부서에서 직접 분석하며 업무가 중복될 수 있고 핵심분석이 어려운 유형이다  
  분산구조 데이터 분석 조직의 유형으로 분석 조직 인력을 현업부서에 직접 배치하며 분석결과가 신속하게 적용된다  
  빅데이터 플랫폼 데이터의 수집, 저장, 처리, 관리 및 분석 등의 역할 수행을 지원해 새로운 인사이트가 가능한 일련의 빅데이터 프로세스 환경을 아우르는 용어  
  빅데이터 에코시스템 수집, 정제, 적재, 분석, 시각화의 단계를 거치며 사용하는 기술, 프레임워크 솔루션 등을 통틀어 일컫는 용어  
  마이데이터 운동 정보의 주체가 개인정보 권한을 갖고 관리할 수 잇게 하자는 취지의 운동으로 브뤼셀에서 2015년 처음 시작됨  
  프로세스 혁신 3.0 통합된 데이터를 통한 분석결과에 따른 의사결정을 프로세스에 내재화해 혁신하는 것  
  가명처리 개인정보 비식별화 기술 기법으로 휴리스틱 가명화, 암호화, 교환 방법 사용  
  총계처리 개인정보 비식별화 기술 기법으로 총계처리, 부분총계, 라운딩, 재배열 사용  
  데이터 삭제 개인정보 비식별화 기술 기법으로 식별자 삭제, 레코드 삭제 사용  
  데이터 범주화 개인정보 비식별화 기술 기법으로 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩 사용  
  데이터 마스킹 개인정보 비식별화 기술 기법으로 임의 잡음 추가, 공백과 대체 사용  
  K-익명성 프라이버시 보호 모델로 특정인임을 추론할 수 있는지를 검토, 일정확률 수준 이상 비식별되게 하는 기법  
  L-다양성 프라이버시 보호 모델로 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법  
  T-근접성 프라이버시 보호 모델로 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법  
  에이전시 사물인터넷의 성숙과 함께 연결이 증가하고 복잡해졌으며 복잡한 연결을 얼마나 효과적이고 믿을만하게 관리하는가가 이슈인 가치 패러다임  
  자기정보결정권 개인을 중심으로 개인 데이터를 구성하고, 자신의 정보를 어떤 목적으로 어떻게 활용할 것인지에 대해 적극적으로 참여하는 권한  
  최적화 분석 대상이 무엇인지 알고 있고(하향식) 분석 방법을 알고 있을 때 삼는 분석 주제  
  솔루션 분석 대상이 무엇인지 알고 있고(하향식) 분석 방법을 모를 때 삼는 분석 주제  
  통찰 분석 대상이 무엇인지 모르고(상향식) 분석 방법을 알고 있을 때 삼는 분석 주제  
  발견 분석 대상이 무엇인지 모르고(상향식) 분석 방법을 모르고 있을 때 삼는 분석 주제  
  폭포수 모델 업무에 따른 분석 방법론으로 단계를 순차적으로 진행하며, 전형적인 IT SW 개발 방식  
  프로토타입 모델 업무에 따른 분석 방법론으로 일부분을 먼저 개발해 시험 사용 후 개선하는 모델  
  나선형 모델 업무에 따른 분석방법론으로 반복으로 점증적 개발하며 관리체계를 갖추지 못할 경우 복잡도가 상승하는 모델  
  ISP 정보기술, 정보시스템을 전략적 활용 위해 조직의 내외부 환경 분석 등 중장기 마스터플랜을 수립하는 절차  
  SI 시스템 구축의 약자로,하청을 받아 기획, 개발, 유지보수, 운영 등을 대신해주는 업종 , 도급, 파견업무를 특성으로 함  
  SM 시스템 운영, 유지 보수의 약자  
  WBS 업무 분업 구조로 프로젝트 관리와 시스템 공학 분야에서 프로젝트를 더 작은 요소로 분해시킨 딜리버러블 지향 분업구조  
  NoSQL 데이터모델을 단순화한 분산 데이터베이스 기술로 스키마가 필요없으며 조인 연산을 지원하지 않으며 MongoDB, Hbase 등이 해당됨  
  정형 데이터 고정된 구조로 정해진 필드에 저장된 데이터로 RDBMS, CSV 같은 파일 형태  
  반정형 데이터 고정된 필드에 저장되어 있지 않지만, 데이터와 메타데이터, 스키마 등을 포함하며 XML, HTML, JSON 등이 대표적  
  비정형 데이터 정해진 구조가 없고, 고정된 필드에 저장되어 있지 않은 데이터로 동영상, 문자 데이터 등이 대표적이다  
  질적 자료 특정 범주를 구분해 나눌 수 있는 자료 범주형 자료
  양적 자료 연속적인 수로 수량화할 수 있는 자료 연속형 자료
  명목 척도 순위가 없이 특정 범주에 존재하는 척도, 성별/혈액형/거주지역/인종  
  순위 척도 학년/석차/소득 수준과 같이 특정 상태의 범주에 포함되는 척도로 순위가 있는 척도  
  구간 척도 절대적인 원점이 존재하지 않으며 0이 값이 없다고 할 수 없는 값. 온도/지수/점수 같은 값 등간 척도
  비율 척도 절대적인 원점이 존재하며 0일때 값이 없다고 할 수 있는 경우. 무게/거리/키/나이/시간 같은 값  
  평활화 데이터로부터 발생할 수 있는 잡음을 제거하기 위해 추세에 맞지 않는 이상값들을 제거해 데이터로 변환하는 방법  
  집계 그룹화 연산을 데이터에 적용하여 데이터를 요약하는 방법  
  일반화 특정 구간에 분포하는 값으로 스케일을 변화시키는 방법으로 특정 범위 내의 값으로 축소함  
  정규화 데이터를 특정 구간 안에 들어가게 이상값을 변환하는 방법  
  최소 최대 정규화 원본 데이터에 대해 선형 변환을 수행함으로써 정규화하는 방법으로 원본 데이터의 값들의 관계를 그대로 유지하는 방법이다. 원래 데이터의 범위를 넘어가면 범위 초과 오류가 발생가능하다  
  범주화 데이터 통합을 위해 상위 레벨 개념의 속성이나 특성을 이용해 일반화하는 방법  
  PCA 여러 변수의 변량을 서로 상관성이 높은 변수들의 선형 조합으로 만든 새로운 변수로 요약 및 축소하는 기법  
  샘플링 전체 데이터 중 분석에 필요한 데이터만 선택적으로 이용하는 것  
  데이터 비식별화 데이터에 개인을 식별할 수 있는 정보가 있는 경우 일부 또는 전체를 삭제하거나 일부를 대체 처리해 특정 개인을 식별할 수 없게 하는 것  
  개별화 전체 데이터 집합에서 특정 개인에 해당하는 집합을 식별 가능한 정도  
  연결 가능성 한 정보가 특정 개인을 알 수 없게 개별화하였더라도 다른 정보와 동일 값 연결을 통해 특정 개인의 정보임을 식별할 수 있는 정도  
  추론 가능성 특정 정보의 속성과 값을 통해 특정 개인임을 유추해 낼 수 있는 정도  
  구별 불가능성 특정 정보의 값이 특정 그룹이나 소속에 포함됨을 확인할 수 있어 특정 개인을 구분해낼 수 있는 정도  
  데이터 프로파일링 정형 데이터와 메타데이터를 대상으로 통계 기법을 활용해 패턴 파악하는 데이터 품질검증 방법으로 분석 결과를 종합해 누락값, 유효하지 않은 값 등을 발견하고 개선함  
  RDBMS 관계형 DB를 SQL을 사용해 CRUD를 수행하고 관리할 수 있는 소프트웨어로 Oracle, MS SQL, MySQL 등이 해당된다  
  샤딩 데이터베이스 아키텍처 패턴의 하나로 효율적인 데이터 처리 및 관리를 위해 데이터를 수평 분할하는 것을 말하며, 부하를 분산하고 더 많은 트래픽을 허용하게 한다.  
  스타 스키마 조인 스키마라고도 하며 단일 테이블을 중심으로 다수의 차원 테이블이 연결되어있는 테이블 모델링 기법으로 이해가 쉽지만 적재에 시간이 많이 소요된다  
  스노우 플레이크 스키마 스타 스키마의 차원 테이블이 제 3정규형으로 정규화된 형태로 중복이 제거되어 적재 소요 시간이 빠르나 쿼리 작성 난이도가 증가한다  
  ETL 데이터 이동과 변환 절차와 관련된 업계 표준 용어로, 데이터 원천으로부터 데이터를 추출 및 변환해 ODS, DW, DM에 데이터 적재하는 작업  
  ODS 데이터에 추가 작업을 하기 위해 다양한 원천 데이터로부터 데이터를 추출 통합한 데이터베이스  
  CDC 실시간 또는 준실시간 데이터 통합을 기반으로 하는 DW 및 기타 데이터 저장소 구축에 폭넓게 활용되는 데이터 적재 구조  
  데이터 레이크 정형, 비정형을 막론하고 다양한 형태의 로 데이터를 모은 집합소 개념  
  sqoop 하둡과 데이터베이스 간 데이터 이동을 간편하게 하기 위해 개발한 프레임 워크  
  flume 반정형, 비정형 데이터 수집하며 대용량 로그 데이터를 안정성, 가용성을 바탕으로 효율적으로 수집하고 다양한 방식으로 데이터를 전송  
  kafka 데이터 스트림 실시간 관리를 위한 분산형 스트리밍 플랫폼으로 발행-구독 모델로 구성되어 있으며 메시지를 메모리에 저장하지 않고 파일에 저장한다. 파티셔닝을 지원함  
  storm 실시간 스트리밍을 처리하기 위한 서버이자 프레임 워크로 장애 대응 능력이 뛰어나고 장애 노드 복구 처리를 자동으로 수행한다  
  GFS 구글의 빅데이터 플랫폼의 기반이 되는 파일 시스템으로 파일을 고정된 크기 청크로 나누고 청크를 다수의 청크 서버에 분산 저장한다  
  폴트톨러런스 구글의 맵리듀스에서 시스템 내의 어느 한 부품 또는 어느 한 모듈에 장애가 발생해도 시스템 운영에 전혀 지장을 주지 않게 설계하는 것  
  HDFS GFS의 아키텍처를 따르며 블록 개념이 존재, 구글의 맵리듀스를 바탕으로 JAVA로 구현함  
  spark 인메모리 분산처리 시스템으로 빠른 성능을 위한 인메모리 캐싱, 최적화된 실행, 실시간 분석 업무에 최적화 되어있는 하둡 에코시스템 프레임워크  
  yarn 하둡 맵리듀스를 하나의 애플리케이션으로 관리할 수 있고 새로운 추상화 레이어를 만든 하둡 에코시스템 프레임워크  
  hive 사용자가 SQL로 쿼리를 작성하면 그것을 맵리듀스 작업으로 변경해주는 쿼리 엔진이며 자바기반의 프레임워크  
  mahout 하둡 HDFS 데이터를 머신러닝으로 분석하는 대표적 프레임워크로 분산 처리가 가능하고 확장성을 가짐  
  presto SQL 처리 엔진으로 자바로 만들어졌으며 메모리 처리와 데이터 구조 기술을 적절히 혼합해 페이스북에서 제작한 프레임워크  
  airflow 에어비앤비 엔지니어링팀에서 개발된 도구로 웹 UI기반의 강력한 모니터링 기능 제공, 여러 대의 노드가 동작해야 하는 환경에서도 지원
데이터 워크플로 관리도구
 
  zookeeper 분산 시스템 간의 정보 공유 및 상태 체크, 동기화를 처리하는 프레임워크
코디네이션 서비스 시스템
 
  oozie 하둡 에코시스템의 워크플로 관리
일정한 시간이 경과하거나 주기적으로 반복해서 실행할 수 있는 잡을 관리
 
  hue 하둡 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스  
  HCatalog 다양한 데이터 처리 툴에 일종의 테이블 뷰를 제공하는 모듈
하둡 에코시스템의 데이터 처리 도구 간의 테이블, 저장공간 관리 계층 제공
 
2.
빅데이터 탐색
완전 무작위 결측 다른 변수와 무관하게 랜덤으로 발생한 결측 MCAR
  무작위 결측 결측이 다른 변수와 연관이 있지만, 그 자체가 결과 분포 자체에 영향을 미치지는 않음 MAR
  비무작위 결측 결측값이 결괏값에 영향을 미치는 경우 NMAR
  평균 대체법 평균, 중앙값 등의 대푯값으로 대체하는 방법, 결측값의 발생이 다른 변수와 관계가 있는 경우 유용  
  다중 대치법 여러 번의 결측치 추정을 통해 결측치가 대체된 데이터셋을 생성하여 결측치를 대체하는 방법으로 주로 복잡한 결측치 다루는데 사용  
  단순 확률 대체법 결측치를 평균값으로 대체 시 발생할 수 있는 추정량 표준 오차의 과소 추정 문제를 보완하기 위한 방법으로 단순 확률값으로 대체  
  보삽법 시계열 자료의 누락된 데이터를 보완하기 위해 사용되며 나머지 관측치로 평균을 계산하는 방법  
  평가치 추정법 약간의 오차는 감수하면서 원래의 값을 추정하는 방법, 유사한 맥락적 사정/행렬식 자료 고려하며 추정  
  완전정보 최대우도법 적합함수인 최대우도를 바탕으로 가중평균을 구성하여 결측치 대신 사용하는 방법  
  부분 집합법 모든 가능한 모델을 고려해 가장 좋은 모델 선정하는 방법으로 검증해야하는 회귀분석도 많아지는 단점, 임베디드 기법이라고도 하며, 라쏘/릿지/엘라스틱넷 등의 방법을 사용  
  전진 선택법 모든 독립변수 가운데 기준 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하며 모형 선택  
  후진 제거법 독립변수를 모두 포함한 모형에서 시작해 모형에 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법  
  단계적 방법 전진선택법과 후진 제거법을 보완한 방법으로 AIC가 낮아지는 모델 선택  
  차원의 저주 데이터의 차원이 증가할 수록 데이터를 표현할 수 있는 공간은 기하급수적으로 증가하지만 데이터의 수는 변하지 않음  
  다중공선성 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제  
  스크리 산점도 고윳값을 크기순으로 나열해 그린 그래프  
  LDA 지도학습으로 데이터의 분포를 학습하여 결정경계를 만들어 데이터를 분류, 데이터의 클래스 분리를 최적으로 수행할 수 있도록 데이터 축소 선형판별분석
  SVD 크기가 다른 행렬에 대해 세 행렬의 곱으로 분해하는 것 특이값 분해
  파생변수 기존 변수들을 조합하여 새롭게 만들어진 변수  
  과소표집 소수 클래스의 데이터 수만큼 감소시킴, 데이터 손실 우려  
  과대표집 다수 클래스의 데이터 수만큼 증가시킴, 과적합 문제 발생 가능  
  SMOTE 일종의 과대표집 방법으로 다수 클래스를 샘플링하고 기존의 소수 샘플을 보간하여 새로운 소수 인스턴스를 합성해내는 방법  
  EDA 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통계값과 분포를 시각화하고 분석하는 것  
  상관분석 산점도 행렬을 그려 교차하는 변수 간의 관계를 보여주는 산점도와 상관계수를 파악하는 다변량 분석 기법  
  피어슨 상관계수 모수 검정, 연속형 변수, 점수 사이의 연관성 판단하는 상관계수  
  스피어만 상관계수 순위 상관계수, 비모수 검정, 이산형/순서형 변수, 비선형적 관계  
  왜도 0 기준으로 작으면 오른쪽 , 크면 왼쪽  
  첨도 3 기준으로 작으면 완만, 크면 뾰족  
  GIS 지리 공간적으로 참조 가능한 모든 형태의 정보를 효율적으로 수집, 저장, 처리, 관리, 분석할 수 있게 설계된 컴퓨터의 하드웨어와 소프트웨어 등의 통합체  
  공간분석 지도 위에 시각화하여 인사이트 얻는 분석기법  
  MDS 객체 사이의 유사성 수준을 2차원 또는 3차원 공간에 점으로 시각화하는 분석 기법 다차원척도법
  텍스트 마이닝 다양한 문서 자료 내 비정형 텍스트 데이터에 자연어 처리 기술 및 문서처리 기술을 활용해 인사이트 도출하는 기술  
  코퍼스 대량의 텍스트 문서 집합  
  토큰화 구조화되어있지 않는 문서를 단어로 나누는 과정  
  불용어 자주 등장하지만 분석 프로세스에 있어 기여하는 바가 없는 단어  
  어간 추출 단어 내 접사를 제거하고 단어에서 의미를 담고있는 어간으로 분리하는 것 Stemming
  표제어 추출 어간 추출과 유사하지만 단어가 어떤 품사로까지 쓰였는지 고려함 Lemmatization
  품사 태깅 문서 내 각 단어에 해당하는 품사로 태그를 달아주는 과정  
  형태소 의미가 있는 가장 작은 말의 단위  
  단어문서행렬 문서별로 나타난 단어의 빈도를 행렬 형태로 나타낸 것  
  TF-IDF 여러 문서로 이루어진 문서군에서 각 단어의 특정 문서 내 중요도를 보여주는 가중치  
  워드 클라우드 특정 문서에 사용된 단어로 구성된 구름 이미지로 각 단어의 크기가 출현 빈도와 중요성을 효과적으로 보여줌  
  SNA 소셜 네트워크 서비스 내 개인과 집단 간의 관계 및 상호작용을 모델링해 위상구조와 특성을 계량적으로 분석하고 시각화하는 방법론 사회 연결망 분석
  NLP 인간이 사용하는 언어를 컴퓨터가 처리하고 분석할 수 있게 하는 작업  
  중심성 전체 네트워크에서 하나의 노드가 중심에 위치하는 정도를 표현하는 지표, 연결망 내의 각 노드에 부여되는 값  
  중심화 하나의 연결망이 특정 노드에게 집중되어 있는 정도를 보여주는 지표, 연결망 전체에 부여되는 값  
  연결 정도 중심성 하나의 노드에 연결된 노드들의 합을 기반으로 중심성을 측정하는 방법  
  근접 중심성 각 노드 간의 거리를 기반으로 중심성을 측정하는 방법으로 하나의 노드와 다른 노드의 최소거리를 측정  
  매개 중심성 연결망 내에서 하나의 노드가 다른 노드들 사이에 위치하는 정도를 나타낸 지표로 한 노드가 담당하는 중재자 역할의 정도로 중심성을 측정한다  
  위세 중심성 보나시치 권력 중심성이라고도 하며 연결된 노드의 영향력에 가중치를 주어 중심성을 측정하는 방법이며 자신의 연결 정도 중심성에서 발생하는 영향력과 자신과 연결된 노드의 영향력을 합해 위세 중심성을 결정한다  
  기술통계 수집한 데이터를 요약, 묘사, 설명하는 기법으로 표본 자체의 속성 파악하는데 중점  
  추론통계 표본에서 얻은 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법  
  단순 무작위 표본 추출 모집단으로부터 표본을 균등한 확률로 추출하는 것으로 모집단에 대한 사전 지식이 많지 않을 때 적용하는 간편한 방식  
  체계 표본 추출 시간, 순서 및 공간의 동일한 구간을 정해 무작위로 하나의 단위를 추출하고 이후 K번째 간격마다 추출  
  층화 표본 추출 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 개의 층으로 분할한 후 각 층에서 단순 무작위 추출하는 표본추출방법  
  군집 표본 추출 모집단을 어떤 기준에 따라 서로 인접한 기본 단위로 군집을 형성한 후 하나의 군집을 추출해 추출된 군집 내의 일부 또는 전체를 조사하는 표본추출방법  
  편의 표본 추출 모집단에 대한 정보가 전혀 없거나 모집단 구성요소 간의 차이가 별로 없을 때 선정의 편리성에 기준을 두고 조사자가 마음대로 표본을 선정하는 표본추출방법, 길거리조사/ARS 의견조사  
  판단 표본 추출 조사자의 주관적 판단으로 조사에 필요한 대상만을 조사하는 표본추출방법  
  누적 표본 추출 사전에 알고있는 대상을 조사하고 건너 건너 다른 표본 대상도 조사하면서 눈덩이처럼 누적하여 표본을 추출하는 방법  
  할당 표본 추출 특정한 기준에 따라 여러 그룹을 구분하여 그룹별로 필요한 대상을 추출하는 표본추출방법  
  전사건 반드시 일어나는 사건  
  공사건 절대 일어날 수 없는 사건  
  확률변수 나타날 수 있는 확률적 결과를 수치로 표현한 값  
  확률분포 확률 변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지 그래프로 나타내는 것  
  확률분포함수 확률변수를 일직선상 공간에 표현한 함수  
  확률질량함수 이산확률분포의 확률분포를 나타낸 함수  
  누적분포함수 시작점을 음의 무한대로 통일한 특수 구간을 사용하는 함수  
  이항분포 베르누이를 여러 번 시행 시 성공하는 횟수를 확률변수로 하는 확률 분포  
  다항분포 각각의 경우가 나올 수 있는 횟수 집합의 분포  
  초기하분포 비복원 추출되는 경우에 사용되며 N개 중에 n번 추출했을때 원하는 것 k개가 뽑힐 확률의 분포  
  포아송분포 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포  
  정규분포 가우스분포라고도 하며 분포 곡선이 평균값을 중앙으로 해 좌우 대칭으로 종 모양을 이루는 분포  
  베르누이 시행 임의의 결과가 '성공' 또는 '실패'의 두 가지 중 하나인 실험  
  감마분포 특정 수의 사건이 일어날때까지 걸리는 시간에 관한 연속 확률분포  
  t 분포 정규분포의 한계를 보완한 분포로 더 넓은 예측범위를 사용한다. 0에 대해 좌우대칭을 이루며 종모양의 분포를 이루며 자유도가 커질수록 표준정규분포에 가까워진다  
  F 분포 두 데이터셋의 분산을 다루는 분포로 분산의 비율로 크기를 비교한다. 1에 가까울 수록 분산의 크기가 유사하다고 해석하며 일반적으로 왼쪽으로 치우친 모양을 가지고 있다.  
  카이제곱분포 정규분포를 제곱하거나 제곱한 것을 더한 분포로 일반적으로 왼쪽으로 치우치며 오른쪽으로 긴 꼬리를 갖는 분포모양을 가진다. 자유도가 커질수록 정규분포에 가까우며 범주형 자료분석에 주로 쓰이는 검정이다  
  표본분포 모집단으로부터 일정한 크기의 표본을 무작위로 추출해 추출된 표본의 특성을 나타내는 통계량에 대한 분포  
  중심극한정리 모집단이 어떤 형태이든 간에 표본크기를 크게 해서 여러 번 반복 추출했을 시에, 정규 분포 형태이다. 표본 수가 작아도 모집단의 통계량을 구할 수 있다.  
  불편성 추정량의 기댓값이 모수의 실제값과 유사할수록 좋다  
  효율성 모든 불편 추정량 중 분산이 작을수록 좋다  
  일치성 표본 크기를 크게 할수록 추정량이 모수와 가깝다  
  충분성 모수 정보를 더 많이 가질수록 좋은 추정량이다  
  귀무가설 실험, 연구를 통해 기각하고자 하는 어떤 가설  
  대립가설 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설  
  검정통계량 가설의 검정에 사용되는 표본 통계량으로 결론을 내릴 때 사용하는 판단 기준  
  유의수준 귀무가설이 참인데도 잘못 기각하는 오류를 범할 확률의 최대 허용 한계  
  기각역 귀무가설을 기각하게 될 검정통계량의 영역  
  채택역 귀무가설을 기각할 수 없는 검정통계량의 영역  
  유의확률 p-value, 귀무가설을 지지하는 정도를 나타낸 확률  
  제 1종 오류 귀무가설이 참인데 잘못 기각시킬 확률, 알파  
  제 2종 오류 귀무가설이 거짓인데 기각시키지 않을 확률, 베타  
  검정력 대립가설이 참일 때 귀무가설을 기각하고 대립가설을 채택할 확률  
  비모수검정 모수에 대해 어떤 가정도 하지 않는 검정으로 이상치로 인해 평균보다 중앙값이 더 바람직할 때, 표본 크기가 작을 때, 순위와 같은 서수 데이터일 때 사용  
  신뢰수준 n번 표본을 추출해서 구한 n개의 신뢰구간 중 모수를 포함하는 신뢰구간의 비율  
  T-검정 모집단이 정규분포일 경우 평균을 측정하거나, 두 집단 간의 평균을 비교할 때 사용, 적은 표본만으로도 모집단의 평균을 추정할 수 있음, 자유도가 증가할수록 표준 정규분포에 가깝다  
  단일표본 t 검정 하나의 모집단의 평균값을 특정 값과 비교하는 경우 사용하는 통계적 분석 방법  
  독립표본 t 검정 서로 독립적인 두 그룹의 평균 차이가 0인지 알아보는 검정 방법  
  대응표본 t 검정 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용  
3.
빅데이터 모델링
분산분석 세 개 이상의 집단 간 평균을 비교할 때 사용하는 통계 방법으로 독립변수는 범주형, 종속변수는 연속형 ANOVA
  데이터 마이닝 대규모로 저장된 데이터 속에서 수학적 분석을 통해 유의미한 패턴과 규칙을 찾아내는 과정  
  SAS 간단한 명령문으로 여러 통계 분석을 실행할 수 있으며 대용량 데이터 분석이 상대적으로 용이하다.
고가의 라이선스가 필요함
 
  SPSS 사회 과학 자료 분석을 위한 통계 프로그램으로 고가의 라이선스가 필요하다, GUI 기반  
  Stata 통계 패키지인 동시에 데이터 관리 시스템, 데이터 관리와 시각화 기능이 탁월하며 라이선스가 비교적 저렴  
  하둡 분산환경에서 빅데이터를 저장, 처리할 수 있는 자바 기반의 오픈소스 프레임워크  
  맵리듀스 대용량 데이터를 분산 병렬 컴퓨팅을 통해 처리하기 위해 구글에서 개발한 소프트웨어 프레임워크  
  과적합 모델이 학습 데이터를 과하게 학습해 새로운 데이터에 일반화하기가 어려움  
  과소적합 모델이 너무 단순해서 학습 데이터조차 제대로 예측하지 못하는 경우  
  L1 규제 일정한 상숫값이 페널티로 부여되어 일부 불필요한 가중치 파라미터를 0으로 만들어 분석에서 아예 제외시켜버리는 방법 , 라쏘  
  L2 규제 일부 가중치 파라미터를 제한하지만 완전히 0으로 만들지 않고 0에 가깝게 만들며 매우 크거나 작은 이상치의 가중치를 0에 가깝게 유도해 선형 모델의 일반화 성능을 개선함, 릿지  
  홀드아웃 가장 보편적인 데이터 분할을 통한 검증 방법으로 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식  
  부트스트랩 재표본추출 방법의 일종으로 중복추출을 허용해 랜덤하게 데이터를 추출하는 방법  
  연관분석 일련의 거래나 사건의 데이터 간에 존재하는 유용한 규칙을 발견하는 것 연관성 분석
  오피니언 마이닝 텍스트에서 추출된 감정 등의 주관적인 정보를 정량화하는 것 감성 분석
  강화학습 시스템이 어떤 행동을 할 때마다 보상 및 패널티를 줘서 시스템이 받는 보상이 최대가 되는 방향으로 학습을 진행하는 방법  
  군집분석 데이터를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 분석 방법  
  회귀분석 독립변수와 종속변수 간에 선형적인 관계를 도출해 독립변수가 종속변수에 미치는 영향 정도의 분석 및 종속변수 예측하는 분석 기법  
  단순회귀분석 독립변수와 종속변수가 1개씩일 때 이 둘 사이의 인과관계를 분석하는 것으로 두 변수의 관계가 선형이다  
  다중회귀분석 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀 분석으로 독립변수와 종속변수의 관계가 선형으로 표현됨  
  다항회귀분석 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀 분석으로 독립변수와 종속변수의 관계가 1차 함수 이상으로 표현된다  
  비선형회귀분석 종속변수를 독립변수와 회귀계수의 선형 결합으로 표현할 수 없는 경우 사용한다  
  등분산성 잔차의 분석이 독립변수와 무관하게 일정해야 하며 고르게 분포해야 함을 의미함  
  잔차 관측값과 회귀선의 차이  
  로지스틱 회귀분석 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측한다  
  오즈 확률 P가 주어졌을 때 사건이 발생할 확률이 사건이 발생하지 않을 확률의 몇 배인지에 대한 개념  
  의사결정 트리 데이터를 학습하여 데이터 내에 존재하는 규칙을 찾아내고 이 규칙을 나무 구조로 모형화해 분류와 예측을 수행하는 분석 방법  
  가지 노드와 노드를 잇는 선  
  CHAID 종속변수가 이산형인 경우엔 카이제곱 통계량, 연속형인 경우 ANOVA F-통계량의 분류기준을 사용하며 p-value가 작아지는 방향으로 가지 분할 수행하는 알고리즘  
  CART 종속변수가 이산형인 경우엔 지니 지수가 작아지는 방향으로, 연속형인 경우엔 분산 감소량이 커지는 방향으로 가지 분할을 수행하는 알고리즘  
  C4.5 엔트로피 지수가 작아지는 방향으로 가지 분할을 수행하는 알고리즘  
  step 함수 가장 기본적인 활성함수로 그래프가 계단 모양이며 출력값이 0 또는 1이다  
  sigmoid 함수 로지스틱 함수라고도 불리며, 특정 임곗값을 기준으로 출력값이 급격하게 변하는 step 함수와 달리 완만한 곡선 형태로 0과 1 사이값을 출력,
로짓함수와 역함수 관계인 함수
 
  sign 함수 함수의 값이 중간에 갑자기 바뀌는 불연속함수로 입력값이 음수이면 -1, 양수이면 1을 출력하는 함수  
  tanh 함수 확장된 sigmoid 함수로 중심값이 0이며 -1과 1 사이의 값을 출력하며 학습속도가 빠르다  
  ReLU 함수 입력값이 0보다 작으면 0, 0보다 크면 입력값 그대로 출력하는 함수로 0보다 작은 값에 대해서는 기울기가 0이므로 뉴런이 작동하지 않을 수 있음  
  softmax 함수 목푯값이 다범주인 경우에 사용하는 함수로 입력받은 값을 정규화해 0과 1 사이의 값으로 출력한다  
  역전파 알고리즘 인공신경망을 학습시키기 위해 사용하는 일반적인 알고리즘으로 오차가 본래의 진행방향과 반대 방향으로 전파된다는 의미  
  인공신경망 실제 생물의 신경계를 모방해 예측 및 분류를 하는 머신러닝 알고리즘  
  활성함수 인공신경망에서 노드에 입력되는 값을 바로 다음 노드에 전달하지 않고, 비선형 함수에 통과시킨 후 전달하는 함수  
  svm 주어진 데이터를 학습해 새로운 데이터가 어떤 범주에 속할지 결정하는 비확률적 이진 선형모델로 데이터가 n차원일때 데이터를 n-1차원의 초평면으로 분리함 서포트벡터머신
  마진 서포트벡터와 결정경계 사이의 거리  
  서포트벡터 결정경계와 가장 가까운 데이터  
  지지도 전채 거래 중에서 A와 B가 동시에 판매되는 거래의 비율
전체 거래 중 관심있는 삼품이 동시에 판매되는 비중으로 빈발 아이템 집합을 판별하는 데 사용
 
  신뢰도 A의 거래 중에서 B가 포함된 거래의 비율
상품 간에 존재하는 연관성 정도를 측정하는 지표
 
  향상도 A를 구매하지 않았을 때 B를 구매할 확률 대비 A를 구매했을 때 B의 구매확률 증가 비율  
  apriori 지지도를 사용해 빈발 아이템 집합을 판별하고 계산의 복잡도를 감소시키는 알고리즘  
  유클리드 거리 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산하며 변수들의 산포 정도를 감안하지 않는다  
  k-means 군집의 수를 사전에 정한 후 집단 내 동질성과 집단 간 이질성이 높게 전체 데이터를 군집으로 분할하는 알고리즘, 이상치의 영향을 많이 받고 군집의 형태가 볼록한 구 형태로 가정한다  
  단일연결법 최단연결법이라고도 하며, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 작은 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 사슬 형태의 군집 형성  
  완전연결법 최장연결법이라고도 하며, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 큰 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 둥근 형태의 군집 형성  
  평균연결법 모든 가능한 관측치 쌍 사이의 평균 거리를 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다  
  중심연결법 각 군집의 중심점 사이의 거리를 거리로 정의한 방법이다. 모든 관측치 사이의 거리를 측정할 필요없이 중심 사이의 거리를 한번만 계산한다  
  와드연결법 군집의 평균과 각 관측치 사이의 오차 제곱 합의 크기를 고려한 방법이다. 군집의 병합으로 인한 오차 제곱 합의 증가량이 최소가 되는 방향으로 군집을 형성. 비슷한 크기의 군집끼리 병합하는 경향이 있으며 군집 내 분산을 최소로 하기 때문에 좀 더 조밀한 군집이 생성될 수 있다.  
  DBSCAN 밀도 기반 군집 분석의 한 방법으로 개체들이 밀집한 정도에 기초해 군집을 형성하며 군집의 형태에 구애받지 않고 초기 군집의 수를 설정하지 않아도 된다  
  SOM 코호넨 맵이라고도 불리며, 인공신경망을 기반 차원축소와 군집화를 동시에 수행할 수 있는 알고리즘이다. 하나의 전방 패스를 사용해 속도가 빠르고 잠재적으로 실시간 학습 처리가 가능한 모델이다 자기조직화지도
  RR 위험인자에 노출되었을 때 질병이 발생할 확률과 위험인자에 노출되지 않았을 때 질병이 발생할 확률의 비 상대적 위험도
  코호트 연구 특정 위험인자가 질병 발생에 영향을 미치는 지를 확인하는 연구 방법  
  적합도 검정 카이제곱 검정의 일변량 분석 방법으로 데이터가 어떤 이론적 분포를 따르는지 검정하는 방법이다  
  독립성 검정 카이제곱 검정으로 각 범주가 종속변수에 영향을 주는지를 확인하는 검정 방법  
  동질성 검정 카이제곱 검정으로 각 부모집단으로부터 추출된 관측치들이 각 범주 내에서 서로 균일한 값을 가지는지를 검정하는 방법  
  다변량 분석 3개 이상의 변수들을 동시에 분석하는 모든 분석 방법  
  MANOVA 2개 이상의 종속 변수가 주어졌을 때 각 범주 간의 평균 벡터의 차이를 비교하는 분석 방법 다변량분산분석
  요인분석 변수 간에 존재하는 상호 연관성을 바탕으로 데이터를 적은 수의 요인으로 압축 및 요약해 그룹화하는 방법  
  판별분석 두 개 이상의 모집단으로부터 추출된 표본들을 분석해 각 표본이 어느 모집단에서 추출된 것인지를 예측하는 분석 방법  
  시계열 분석 시간의 흐름에 따른 종속변수의 변화를 예측하는 것  
  추세요인 장기간 일정한 방향으로 상승 또는 하락하는 경향을 보이는 요인, 장기적인 변화의 추세를 보여주는 요인이다  
  순환요인 정확히 알려진 이유가 없고 주기가 일정하지 않은 변동  
  계절요인 일정한 주기를 가지는 상하 반복의 규칙적인 변동  
  불규칙요인 설명하지 못하는 오차에 해당하는 요인으로 어떠한 규칙성 없이 우연히 발생하는 예측 불가능한 변동  
  이동평균법 시계열 데이터에서 일정 기간별로 자료를 묶어 평균을 구하는 방법  
  지수평활법 최근 데이터일수록 큰 가중치를 부여, 오래된 데이터일수록 작은 비중을 부여하는 방식으로 평균을 계산하는 방식, 전체 시계열 데이터를 사용해 평균을 계산  
  가법모형 시계열 데이터가 네 종류의 시계열 구성요소의 합으로 구성된다고 가정하는 것  
  승법모형 시계열 데이터가 네 종류의 시계열 구성요소의 곱으로 구성된다고 가정하는 것  
  AR 변수들의 자기상관성을 기반으로 한 시계열 모형, 과거 데이터와의 자기상관성을 분석해 시계열 특성을 분석 자기회귀모형
  MA 현재 데이터가 과거 백색잡음의 선형 가중합으로 구성된다는 모형 이동평균모형
  ARIMA 비정상 시계열 모형으로 불규칙한 시계열 데이터를 규칙적으로 바꿔주는 차분, 변환으로 정상화해 사용한다 자기회귀누적이동평균모형
  베이즈 정리 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 확률을 추정할 때 분석자의 사전지식까지 포함해 분석하는 방법  
  나이브 베이즈 스팸메일 필터링, 텍스트 분류 등에 사용할 수 있으며 베이즈 정리를 기반으로 한 지도학습 모델이다  
  딥러닝 연속된 여러 개의 층을 가진 인공신경망을 통해 계층적으로 데이터를 학습하는 방법  
  기울기 소실 문제 입력값이 크게 증가, 감소함에 따라 기울기가 작아지고 미분 값은 점점 0에 수렴해 학습속도가 느려지고 모델의 정확도가 하락  
  경사하강법 함수의 기울기를 구해 기울기가 낮은 쪽으로 계속 이동시켜 오차의 최솟값에 이르게 하는 방법  
  확률적 경사하강법 무작위로 샘플링된 하나의 샘플로 그래디언트를 계산하고 매개변수를 업데이트하는 방법 SGD
  사전학습 과적합이 발생하지 않게 신경망의 가중치와 편향을 초기화하는 방법  
  정규화 가중치가 클수록 큰 패널티를 줌으로써 모델의 복잡성을 줄이고 일반화 성능을 향상시키는 방법  
  드롭아웃 과적합을 방지하는 방법으로 일정 비율의 뉴런을 임의로 정해 삭제하여 학습에서 배제하는 방법  
  CNN 이미지의 작은 조각으로 쪼개서 인식한 후 그 정보를 합쳐 하나의 사물로 판단하는 구조를 모방한 알고리즘 합성곱신경망
  패딩 이미지의 가장자리를 특정 값으로 감싸는 방법  
  풀링 합성곱 과정을 거친 데이터의 사이즈를 줄여주는 과정  
  스트라이드 CNN에서의 필터의 이동량  
  RNN 문장이나 시계열 데이터와 같이 순차적 형태의 시퀀스 데이터에 최적화된 알고리즘으로 장기 의존성 문제가 존재  
  LSTM RNN의 장기 의존성 문제를 해결한 대표적 모델  
  밀도 연결망에서 노드 간의 연결 정도를 나타내는 지표로 가능한 총 연결의 수와 실제로 연결된 수의 비로 나타냄  
  앙상블 분석 주어진 데이터를 여러 개의 학습용 데이터셋으로 분할하고 각각의 학습용 데이터셋을 통해 여러 개의 예측모형을 만든 후 여러 예측모형의 결과를 종합해 하나의 최종결과를 도출하는 방법  
  배깅 부트스트랩 방식을 통해 여러 개의 크기가 같은 표본을 추출해 각 표본에 대해 예측모델을 적용 후 결과를 집계하는 방식  
  부스팅 예측력이 약한 모형을 연결하여 순차적으로 학습함으로써 예측력 강한 모형을 만드는 기법, 오분류된 데이터에 가중치를 주어 하나의 강한 분석 모형으로 만드는 앙상블 기법  
  랜덤 포레스트 배깅의 일종으로 변수 랜덤 선택 과정을 추가한 방법.
의사결정트리를 개별 모형으로 사용하는 모형결합방법으로 독립변수의 차원을 랜덤하게 감소시킨 다음 그 중에서 독립변수를 선택하는 방법
 
  스태킹 서로 다른 예측 모델을 사용해 앙상블하는 방법, 개별 모델이 예측한 결괏값을 다시 학습 데이터셋으로 사용해 최종 예측에 사용한다는 특징  
  부호검정 비모수적 방법으로 중앙값을 통해 가설을 검정하는 방법  
  만-위트니 검정 비모수적 방법으로 독립된 두 집단의 중심 위치를 비교하기 위해 사용한다 윌콕슨의 순위합 검정
  런 검정 비모수적 방법으로 각 표본이 서로 독립적이라는 가설을 검정하기 위해 사용하는 방법으로 추출된 표본들이 특정 패턴없이 무작위로 구성됐는지를 검정  
  하드마진 엄격하게 초평면을 정의하는 방법으로 모든 입력값은 초평면을 사이로 무조건 한 클래스에 속해야하며 과적합의 가능성이 크다  
  소프트마진 여유변수를 도입한 서포트벡터머신으로 마진의 크기를 최대로 해 여유변수의 크기를 최소로 하는 결정 경계를 찾는 것을 목적으로 한다  
  C 서포트벡터 머신의 파라미터로 오분류를 허용하는 정도를 나타낸다  
  EM 알고리즘 군집분석에서 사용하는 모수 추정 방법으로 모수 임의값 설정 후 잠재변수 Z 기대치 추정해 모수와 Z 수렴까지 반복하는 알고리즘  
4.
빅데이터 결과 해석
혼동행렬 이진 분류에서 모형이 예측한 값과 실제 값의 조합을 교차표형태로 정리한 행렬  
  정확도 전체 데이터에서 올바르게 분류한 데이터의 비율  
  정밀도 positive로 예측한 것 중에서 실제값이 positive인 비율  
  재현율 실제 positive 인 값 중 positive로 분류한 비율 민감도, 참 긍정율, TPR
  특이도 실제 negative인 값 중 negative로 분류한 비율 참 부정율, TNR
  거짓 긍정률 실제 negative인 값 중 positive로 잘못 분류한 비율 FPR
  F1-score 정밀도와 재현율의 조화평균  
  ROC 곡선 임곗값을 다양하게 조절해 분류 모형 성능을 비교할 수 있는 그래프, TPR을 y축, FPR을 x축에 두어 시각화  
  AUC ROC 곡선 아래의 면적, 면적이 넓을수록 분류 잘하는 모형  
  MAE 모형의 예측값과 실제값의 차이를 평균한 값 평균절대오차
  MSE 모형의 예측값과 실제값의 차이를 제곱하여 평균한 값 평균제곱오차
  RMSE MSE에 루트를 씌운 값 평균제곱근오차
  MAPE 실제값 대비 오차를 평균한 값 평균절대백분율오차
  결정계수 주어진 데이터에 회귀선과의 적합 정도를 평가하는 척도, 독립변수들이 종속변수를 얼마나 잘 설명하는지 보여주는 지표 R^2
  SST 전체제곱합, 관측된 값이 평균과 얼마나 차이가 있는지 의미함, Y가 가진 총 변동성  
  SSR 회귀제곱합, 회귀선으로 설명할 수 있는 변동  
  SSE 오차제곱합, 회귀식으로 설명되지 않는 변동  
  교차검증 데이터를 나누고 학습하는 과정을 여러 차례 반복함으로써 일반화 성능을 평가  
  Z-검정 정규분포를 가정, 추출된 표본이 동일한 모집단에 속하는지에 대한 가설 검증하기 위해 사용  
  모멘텀 물리학의 운동량에서 유래한 단어로 SGD가 가는 방향에 가속도를 부여해주는 알고리즘  
  AdaGrad 매개변수별 적응 학습률을 사용하는 알고리즘으로 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률로 조정하고 그렇지 않은 매개변수들은 학습률을 크게 조정한다  
  Adam 오래된 기울기의 영향력을 지수적으로 줄여 AdaGrad를 개선한 RMSProp에 모멘텀을 더한 것으로 최근 가장 많이 사용하는 알고리즘  
  보팅 서로 다른 알고리즘을 사용한 여러 분석 모형의 결과를 두고 투표를 통해 최종 예측 결과를 결정하는 앙상블 기법  
  임베딩 기계가 이해할 수 있게 숫자 형태인 벡터로 바꾼 결과, 또는 바꾸는 일련의 과정  
  인포그래픽 다양한 시각화 도구로 데이터를 간소화해 쉽게 이해할 수 있게 만든 그래픽 메시지  
  등치선도 지리적으로 같은 데이터를 가진 곳을 선으로 이어서 시각화하는 방법  
  카토그램 특정 성질을 가진 인구의 분포를 데이터 값의 변화에 따라 지도 위에 나타낸 것  
  트리맵 사각형을 이용해 데이터의 값을 나타내는 것. 서로 다른 크기를 이용해 비율을 나타내며 사각형을 겹쳐 놓아 대분류와 하위 분류를 나타낸다  
  히스트그램 표로 되어있는 도수 분포를 정보 그림의 형태로 변경한 것으로 가로축은 정량적인 값으로 특정한 간격이 있고, 각 구간에 대응하는 값의 빈도를 높이로 세로축에 표현한다  
  히트맵 여러 변수를 한 번에 비교하기 위해 흔히 사용되는 그래프
행 방향은 관측 개체를 나타내고 열 방향은 각각의 변수로 나타내 각 칸에 색상을 이용해 값을 표현
 
  빅데이터 큐레이션 빅데이터 전략을 제시하고 최적의 빅데이터 구축에서 시작해 분석 및 결과 활용까지 전 과정을 지휘하는 활동  

 

 

 

+ 1회 기출문제

 

후진제거법(후진소거법)

이상치 +

부스팅

하이퍼파라미터 +

roc curve

gradient descent boosting model +

댓글