단답형 준비 : 데이터 처리 영역 (10문제) X 3점
[위키북스] 2021 빅데이터분석기사 필기 책을 바탕으로 제가 공부하기 위해 정리한 내용입니다.
다소 세부적인 내용까지 정리되어 있으니 감안해서 보시길 바랍니다.
챕터 이름 | 답 | 설명 | 동의어 |
1. 빅데이터 분석 기획 |
정량적 데이터 | 수치로 표현할 수 있는 숫자, 도형, 기호 등의 데이터 | 정형 데이터 |
정성적 데이터 | 언어, 문자 등의 정형화되지 않은 데이터 | 비정형 데이터 | |
암묵지 | 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식 | 공통화/내면화 | |
형식지 | 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식 | 표출화/연결화 | |
데이터 | 의미가 중요하지 않은 객관적 사실, 이론을 세우는데 기초가 되는 사실 | ||
정보 | 데이터의 가공,처리와 데이터 간 연관 관계 속에서 의미가 도출 된 것 | ||
지식 | 데이터를 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화 된 것 | ||
지혜 | 지식의 축적과 아이디어가 결합된 창의적 산물 | ||
데이터베이스 | DB, 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체 | ||
DBMS | 이용자가 쉽게 데이터베이스를 구축, 유지할 수 있게 하는 관리 소프트웨어 | ||
인하우스 DB | 클라우드가 아닌 기업 내부에 DB 구축 및 관리 | ||
OLTP | 1990년대 중반 이전, 정보의 수집과 공유 위해 기업 활동에서 영역별로 구축되던 단순 자동화 중심 시스템 데이터베이스의 데이터를 갱신, 조회하는 단위 작업 처리 방식 온라인 거래처리 |
||
OLAP | 분석이 중심이 되는 시스템 구축하며 데이터를 전략적 정보로 변환 사용자가 직접 대화식으로 정보를 분석하는 과정 DW, DM과 상호 연관 |
||
CRM | 고객관계관리, 양호한 관계 유지로 고객 생애 가치 향상 | ||
SCM | 공급망 관리, 공급망 단계 최적화 | ||
DW | 기간시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 정제. 변환해서 관리하는 데이터 베이스 ERP, CRM, SCM 등 기업에서 활용하는 시스템에서 생성되는 데이터를 모아둠 |
||
EDW | 기존 DW를 전사적으로 확장한 모델로 BPR, CRM, BSC 같은 분석 애플리케이션 원천 | ||
ERP | 경영정보시스템의 한 종류, 회사의 모든 정보뿐 아니라 통합적 관리 시스템 | ||
EAI | 기업 애플리케이션 통합, 전사적 응용 프로그램 통합 기업 정보 시스템들의 데이터를 연계 통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크 |
||
BI | 기업에서 데이터 수집, 분석하고 활용해 효율적인 의사결정 할 수 있는 방법 연구 학문 | ||
velocity | 빅데이터의 특징 3V로 variety, volume, _______ | ||
사후처리 | 빅데이터가 만들어낸 변화로 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 인사이트 발굴 | ||
전수조사 | 데이터 처리비용이 감소하면서 데이터 활용 방법이 표본조사에서 변화한 조사방법 | ||
연관규칙 학습 | 어떤 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법으로 장바구니 분석, 상품 추천 등을 사용하는 기술 | ||
알고리즈미스트 | 알고리즘에 의해 불이익 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 갖춘 전문가 | ||
4차 산업혁명 | 정보통신 기술의 융합으로 이루어지는 차세대 산업혁명 | ||
분석 거버넌스 | 분석이 조직의 전략과 목표에 부합되게 운영하는 관리체계. 의사결정 및 책임 소재를 기술한 일종의 프레임워크 |
||
정착형 | 분석 수준 진단결과로 준비도는 낮고 성숙도가 높으며 제한적 분석기법을 사용하며 분석의 정착 필요한 유형 | ||
준비형 | 분석 수준 진단결과로 준비도, 성숙도가 낮으며 사전 준비가 필요한 유형 | ||
확산형 | 분석 수준 진단결과로 준비도, 성숙도가 높으며 지속적 확산이 가능한 유형 | ||
도입형 | 분석 수준 진단결과로 준비도는 높고 성숙도가 낮으며 데이터 분석을 바로 도입할 수 있는 유형 | ||
데이터 거버넌스 | 기업의 데이터에 대해 정책, 지침 등 표준화된 관리체계를 수립하고 운영 위한 프레임워크 및 저장소 구축하는 것 | ||
집중구조 | 데이터 분석 조직의 유형으로 별도 조직 구성하며 회사의 모든 분석 업무를 전담 조직에서 담당하는 유형. 업무가 중복될 가능성이 있다 |
||
기능구조 | 데이터 분석 조직의 일반적인 유형이며 각 해당 업무 부서에서 직접 분석하며 업무가 중복될 수 있고 핵심분석이 어려운 유형이다 | ||
분산구조 | 데이터 분석 조직의 유형으로 분석 조직 인력을 현업부서에 직접 배치하며 분석결과가 신속하게 적용된다 | ||
빅데이터 플랫폼 | 데이터의 수집, 저장, 처리, 관리 및 분석 등의 역할 수행을 지원해 새로운 인사이트가 가능한 일련의 빅데이터 프로세스 환경을 아우르는 용어 | ||
빅데이터 에코시스템 | 수집, 정제, 적재, 분석, 시각화의 단계를 거치며 사용하는 기술, 프레임워크 솔루션 등을 통틀어 일컫는 용어 | ||
마이데이터 운동 | 정보의 주체가 개인정보 권한을 갖고 관리할 수 잇게 하자는 취지의 운동으로 브뤼셀에서 2015년 처음 시작됨 | ||
프로세스 혁신 3.0 | 통합된 데이터를 통한 분석결과에 따른 의사결정을 프로세스에 내재화해 혁신하는 것 | ||
가명처리 | 개인정보 비식별화 기술 기법으로 휴리스틱 가명화, 암호화, 교환 방법 사용 | ||
총계처리 | 개인정보 비식별화 기술 기법으로 총계처리, 부분총계, 라운딩, 재배열 사용 | ||
데이터 삭제 | 개인정보 비식별화 기술 기법으로 식별자 삭제, 레코드 삭제 사용 | ||
데이터 범주화 | 개인정보 비식별화 기술 기법으로 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩 사용 | ||
데이터 마스킹 | 개인정보 비식별화 기술 기법으로 임의 잡음 추가, 공백과 대체 사용 | ||
K-익명성 | 프라이버시 보호 모델로 특정인임을 추론할 수 있는지를 검토, 일정확률 수준 이상 비식별되게 하는 기법 | ||
L-다양성 | 프라이버시 보호 모델로 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 | ||
T-근접성 | 프라이버시 보호 모델로 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 | ||
에이전시 | 사물인터넷의 성숙과 함께 연결이 증가하고 복잡해졌으며 복잡한 연결을 얼마나 효과적이고 믿을만하게 관리하는가가 이슈인 가치 패러다임 | ||
자기정보결정권 | 개인을 중심으로 개인 데이터를 구성하고, 자신의 정보를 어떤 목적으로 어떻게 활용할 것인지에 대해 적극적으로 참여하는 권한 | ||
최적화 | 분석 대상이 무엇인지 알고 있고(하향식) 분석 방법을 알고 있을 때 삼는 분석 주제 | ||
솔루션 | 분석 대상이 무엇인지 알고 있고(하향식) 분석 방법을 모를 때 삼는 분석 주제 | ||
통찰 | 분석 대상이 무엇인지 모르고(상향식) 분석 방법을 알고 있을 때 삼는 분석 주제 | ||
발견 | 분석 대상이 무엇인지 모르고(상향식) 분석 방법을 모르고 있을 때 삼는 분석 주제 | ||
폭포수 모델 | 업무에 따른 분석 방법론으로 단계를 순차적으로 진행하며, 전형적인 IT SW 개발 방식 | ||
프로토타입 모델 | 업무에 따른 분석 방법론으로 일부분을 먼저 개발해 시험 사용 후 개선하는 모델 | ||
나선형 모델 | 업무에 따른 분석방법론으로 반복으로 점증적 개발하며 관리체계를 갖추지 못할 경우 복잡도가 상승하는 모델 | ||
ISP | 정보기술, 정보시스템을 전략적 활용 위해 조직의 내외부 환경 분석 등 중장기 마스터플랜을 수립하는 절차 | ||
SI | 시스템 구축의 약자로,하청을 받아 기획, 개발, 유지보수, 운영 등을 대신해주는 업종 , 도급, 파견업무를 특성으로 함 | ||
SM | 시스템 운영, 유지 보수의 약자 | ||
WBS | 업무 분업 구조로 프로젝트 관리와 시스템 공학 분야에서 프로젝트를 더 작은 요소로 분해시킨 딜리버러블 지향 분업구조 | ||
NoSQL | 데이터모델을 단순화한 분산 데이터베이스 기술로 스키마가 필요없으며 조인 연산을 지원하지 않으며 MongoDB, Hbase 등이 해당됨 | ||
정형 데이터 | 고정된 구조로 정해진 필드에 저장된 데이터로 RDBMS, CSV 같은 파일 형태 | ||
반정형 데이터 | 고정된 필드에 저장되어 있지 않지만, 데이터와 메타데이터, 스키마 등을 포함하며 XML, HTML, JSON 등이 대표적 | ||
비정형 데이터 | 정해진 구조가 없고, 고정된 필드에 저장되어 있지 않은 데이터로 동영상, 문자 데이터 등이 대표적이다 | ||
질적 자료 | 특정 범주를 구분해 나눌 수 있는 자료 | 범주형 자료 | |
양적 자료 | 연속적인 수로 수량화할 수 있는 자료 | 연속형 자료 | |
명목 척도 | 순위가 없이 특정 범주에 존재하는 척도, 성별/혈액형/거주지역/인종 | ||
순위 척도 | 학년/석차/소득 수준과 같이 특정 상태의 범주에 포함되는 척도로 순위가 있는 척도 | ||
구간 척도 | 절대적인 원점이 존재하지 않으며 0이 값이 없다고 할 수 없는 값. 온도/지수/점수 같은 값 | 등간 척도 | |
비율 척도 | 절대적인 원점이 존재하며 0일때 값이 없다고 할 수 있는 경우. 무게/거리/키/나이/시간 같은 값 | ||
평활화 | 데이터로부터 발생할 수 있는 잡음을 제거하기 위해 추세에 맞지 않는 이상값들을 제거해 데이터로 변환하는 방법 | ||
집계 | 그룹화 연산을 데이터에 적용하여 데이터를 요약하는 방법 | ||
일반화 | 특정 구간에 분포하는 값으로 스케일을 변화시키는 방법으로 특정 범위 내의 값으로 축소함 | ||
정규화 | 데이터를 특정 구간 안에 들어가게 이상값을 변환하는 방법 | ||
최소 최대 정규화 | 원본 데이터에 대해 선형 변환을 수행함으로써 정규화하는 방법으로 원본 데이터의 값들의 관계를 그대로 유지하는 방법이다. 원래 데이터의 범위를 넘어가면 범위 초과 오류가 발생가능하다 | ||
범주화 | 데이터 통합을 위해 상위 레벨 개념의 속성이나 특성을 이용해 일반화하는 방법 | ||
PCA | 여러 변수의 변량을 서로 상관성이 높은 변수들의 선형 조합으로 만든 새로운 변수로 요약 및 축소하는 기법 | ||
샘플링 | 전체 데이터 중 분석에 필요한 데이터만 선택적으로 이용하는 것 | ||
데이터 비식별화 | 데이터에 개인을 식별할 수 있는 정보가 있는 경우 일부 또는 전체를 삭제하거나 일부를 대체 처리해 특정 개인을 식별할 수 없게 하는 것 | ||
개별화 | 전체 데이터 집합에서 특정 개인에 해당하는 집합을 식별 가능한 정도 | ||
연결 가능성 | 한 정보가 특정 개인을 알 수 없게 개별화하였더라도 다른 정보와 동일 값 연결을 통해 특정 개인의 정보임을 식별할 수 있는 정도 | ||
추론 가능성 | 특정 정보의 속성과 값을 통해 특정 개인임을 유추해 낼 수 있는 정도 | ||
구별 불가능성 | 특정 정보의 값이 특정 그룹이나 소속에 포함됨을 확인할 수 있어 특정 개인을 구분해낼 수 있는 정도 | ||
데이터 프로파일링 | 정형 데이터와 메타데이터를 대상으로 통계 기법을 활용해 패턴 파악하는 데이터 품질검증 방법으로 분석 결과를 종합해 누락값, 유효하지 않은 값 등을 발견하고 개선함 | ||
RDBMS | 관계형 DB를 SQL을 사용해 CRUD를 수행하고 관리할 수 있는 소프트웨어로 Oracle, MS SQL, MySQL 등이 해당된다 | ||
샤딩 | 데이터베이스 아키텍처 패턴의 하나로 효율적인 데이터 처리 및 관리를 위해 데이터를 수평 분할하는 것을 말하며, 부하를 분산하고 더 많은 트래픽을 허용하게 한다. | ||
스타 스키마 | 조인 스키마라고도 하며 단일 테이블을 중심으로 다수의 차원 테이블이 연결되어있는 테이블 모델링 기법으로 이해가 쉽지만 적재에 시간이 많이 소요된다 | ||
스노우 플레이크 스키마 | 스타 스키마의 차원 테이블이 제 3정규형으로 정규화된 형태로 중복이 제거되어 적재 소요 시간이 빠르나 쿼리 작성 난이도가 증가한다 | ||
ETL | 데이터 이동과 변환 절차와 관련된 업계 표준 용어로, 데이터 원천으로부터 데이터를 추출 및 변환해 ODS, DW, DM에 데이터 적재하는 작업 | ||
ODS | 데이터에 추가 작업을 하기 위해 다양한 원천 데이터로부터 데이터를 추출 통합한 데이터베이스 | ||
CDC | 실시간 또는 준실시간 데이터 통합을 기반으로 하는 DW 및 기타 데이터 저장소 구축에 폭넓게 활용되는 데이터 적재 구조 | ||
데이터 레이크 | 정형, 비정형을 막론하고 다양한 형태의 로 데이터를 모은 집합소 개념 | ||
sqoop | 하둡과 데이터베이스 간 데이터 이동을 간편하게 하기 위해 개발한 프레임 워크 | ||
flume | 반정형, 비정형 데이터 수집하며 대용량 로그 데이터를 안정성, 가용성을 바탕으로 효율적으로 수집하고 다양한 방식으로 데이터를 전송 | ||
kafka | 데이터 스트림 실시간 관리를 위한 분산형 스트리밍 플랫폼으로 발행-구독 모델로 구성되어 있으며 메시지를 메모리에 저장하지 않고 파일에 저장한다. 파티셔닝을 지원함 | ||
storm | 실시간 스트리밍을 처리하기 위한 서버이자 프레임 워크로 장애 대응 능력이 뛰어나고 장애 노드 복구 처리를 자동으로 수행한다 | ||
GFS | 구글의 빅데이터 플랫폼의 기반이 되는 파일 시스템으로 파일을 고정된 크기 청크로 나누고 청크를 다수의 청크 서버에 분산 저장한다 | ||
폴트톨러런스 | 구글의 맵리듀스에서 시스템 내의 어느 한 부품 또는 어느 한 모듈에 장애가 발생해도 시스템 운영에 전혀 지장을 주지 않게 설계하는 것 | ||
HDFS | GFS의 아키텍처를 따르며 블록 개념이 존재, 구글의 맵리듀스를 바탕으로 JAVA로 구현함 | ||
spark | 인메모리 분산처리 시스템으로 빠른 성능을 위한 인메모리 캐싱, 최적화된 실행, 실시간 분석 업무에 최적화 되어있는 하둡 에코시스템 프레임워크 | ||
yarn | 하둡 맵리듀스를 하나의 애플리케이션으로 관리할 수 있고 새로운 추상화 레이어를 만든 하둡 에코시스템 프레임워크 | ||
hive | 사용자가 SQL로 쿼리를 작성하면 그것을 맵리듀스 작업으로 변경해주는 쿼리 엔진이며 자바기반의 프레임워크 | ||
mahout | 하둡 HDFS 데이터를 머신러닝으로 분석하는 대표적 프레임워크로 분산 처리가 가능하고 확장성을 가짐 | ||
presto | SQL 처리 엔진으로 자바로 만들어졌으며 메모리 처리와 데이터 구조 기술을 적절히 혼합해 페이스북에서 제작한 프레임워크 | ||
airflow | 에어비앤비 엔지니어링팀에서 개발된 도구로 웹 UI기반의 강력한 모니터링 기능 제공, 여러 대의 노드가 동작해야 하는 환경에서도 지원 데이터 워크플로 관리도구 |
||
zookeeper | 분산 시스템 간의 정보 공유 및 상태 체크, 동기화를 처리하는 프레임워크 코디네이션 서비스 시스템 |
||
oozie | 하둡 에코시스템의 워크플로 관리 일정한 시간이 경과하거나 주기적으로 반복해서 실행할 수 있는 잡을 관리 |
||
hue | 하둡 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스 | ||
HCatalog | 다양한 데이터 처리 툴에 일종의 테이블 뷰를 제공하는 모듈 하둡 에코시스템의 데이터 처리 도구 간의 테이블, 저장공간 관리 계층 제공 |
||
2. 빅데이터 탐색 |
완전 무작위 결측 | 다른 변수와 무관하게 랜덤으로 발생한 결측 | MCAR |
무작위 결측 | 결측이 다른 변수와 연관이 있지만, 그 자체가 결과 분포 자체에 영향을 미치지는 않음 | MAR | |
비무작위 결측 | 결측값이 결괏값에 영향을 미치는 경우 | NMAR | |
평균 대체법 | 평균, 중앙값 등의 대푯값으로 대체하는 방법, 결측값의 발생이 다른 변수와 관계가 있는 경우 유용 | ||
다중 대치법 | 여러 번의 결측치 추정을 통해 결측치가 대체된 데이터셋을 생성하여 결측치를 대체하는 방법으로 주로 복잡한 결측치 다루는데 사용 | ||
단순 확률 대체법 | 결측치를 평균값으로 대체 시 발생할 수 있는 추정량 표준 오차의 과소 추정 문제를 보완하기 위한 방법으로 단순 확률값으로 대체 | ||
보삽법 | 시계열 자료의 누락된 데이터를 보완하기 위해 사용되며 나머지 관측치로 평균을 계산하는 방법 | ||
평가치 추정법 | 약간의 오차는 감수하면서 원래의 값을 추정하는 방법, 유사한 맥락적 사정/행렬식 자료 고려하며 추정 | ||
완전정보 최대우도법 | 적합함수인 최대우도를 바탕으로 가중평균을 구성하여 결측치 대신 사용하는 방법 | ||
부분 집합법 | 모든 가능한 모델을 고려해 가장 좋은 모델 선정하는 방법으로 검증해야하는 회귀분석도 많아지는 단점, 임베디드 기법이라고도 하며, 라쏘/릿지/엘라스틱넷 등의 방법을 사용 | ||
전진 선택법 | 모든 독립변수 가운데 기준 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하며 모형 선택 | ||
후진 제거법 | 독립변수를 모두 포함한 모형에서 시작해 모형에 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법 | ||
단계적 방법 | 전진선택법과 후진 제거법을 보완한 방법으로 AIC가 낮아지는 모델 선택 | ||
차원의 저주 | 데이터의 차원이 증가할 수록 데이터를 표현할 수 있는 공간은 기하급수적으로 증가하지만 데이터의 수는 변하지 않음 | ||
다중공선성 | 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제 | ||
스크리 산점도 | 고윳값을 크기순으로 나열해 그린 그래프 | ||
LDA | 지도학습으로 데이터의 분포를 학습하여 결정경계를 만들어 데이터를 분류, 데이터의 클래스 분리를 최적으로 수행할 수 있도록 데이터 축소 | 선형판별분석 | |
SVD | 크기가 다른 행렬에 대해 세 행렬의 곱으로 분해하는 것 | 특이값 분해 | |
파생변수 | 기존 변수들을 조합하여 새롭게 만들어진 변수 | ||
과소표집 | 소수 클래스의 데이터 수만큼 감소시킴, 데이터 손실 우려 | ||
과대표집 | 다수 클래스의 데이터 수만큼 증가시킴, 과적합 문제 발생 가능 | ||
SMOTE | 일종의 과대표집 방법으로 다수 클래스를 샘플링하고 기존의 소수 샘플을 보간하여 새로운 소수 인스턴스를 합성해내는 방법 | ||
EDA | 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통계값과 분포를 시각화하고 분석하는 것 | ||
상관분석 | 산점도 행렬을 그려 교차하는 변수 간의 관계를 보여주는 산점도와 상관계수를 파악하는 다변량 분석 기법 | ||
피어슨 상관계수 | 모수 검정, 연속형 변수, 점수 사이의 연관성 판단하는 상관계수 | ||
스피어만 상관계수 | 순위 상관계수, 비모수 검정, 이산형/순서형 변수, 비선형적 관계 | ||
왜도 | 0 기준으로 작으면 오른쪽 , 크면 왼쪽 | ||
첨도 | 3 기준으로 작으면 완만, 크면 뾰족 | ||
GIS | 지리 공간적으로 참조 가능한 모든 형태의 정보를 효율적으로 수집, 저장, 처리, 관리, 분석할 수 있게 설계된 컴퓨터의 하드웨어와 소프트웨어 등의 통합체 | ||
공간분석 | 지도 위에 시각화하여 인사이트 얻는 분석기법 | ||
MDS | 객체 사이의 유사성 수준을 2차원 또는 3차원 공간에 점으로 시각화하는 분석 기법 | 다차원척도법 | |
텍스트 마이닝 | 다양한 문서 자료 내 비정형 텍스트 데이터에 자연어 처리 기술 및 문서처리 기술을 활용해 인사이트 도출하는 기술 | ||
코퍼스 | 대량의 텍스트 문서 집합 | ||
토큰화 | 구조화되어있지 않는 문서를 단어로 나누는 과정 | ||
불용어 | 자주 등장하지만 분석 프로세스에 있어 기여하는 바가 없는 단어 | ||
어간 추출 | 단어 내 접사를 제거하고 단어에서 의미를 담고있는 어간으로 분리하는 것 | Stemming | |
표제어 추출 | 어간 추출과 유사하지만 단어가 어떤 품사로까지 쓰였는지 고려함 | Lemmatization | |
품사 태깅 | 문서 내 각 단어에 해당하는 품사로 태그를 달아주는 과정 | ||
형태소 | 의미가 있는 가장 작은 말의 단위 | ||
단어문서행렬 | 문서별로 나타난 단어의 빈도를 행렬 형태로 나타낸 것 | ||
TF-IDF | 여러 문서로 이루어진 문서군에서 각 단어의 특정 문서 내 중요도를 보여주는 가중치 | ||
워드 클라우드 | 특정 문서에 사용된 단어로 구성된 구름 이미지로 각 단어의 크기가 출현 빈도와 중요성을 효과적으로 보여줌 | ||
SNA | 소셜 네트워크 서비스 내 개인과 집단 간의 관계 및 상호작용을 모델링해 위상구조와 특성을 계량적으로 분석하고 시각화하는 방법론 | 사회 연결망 분석 | |
NLP | 인간이 사용하는 언어를 컴퓨터가 처리하고 분석할 수 있게 하는 작업 | ||
중심성 | 전체 네트워크에서 하나의 노드가 중심에 위치하는 정도를 표현하는 지표, 연결망 내의 각 노드에 부여되는 값 | ||
중심화 | 하나의 연결망이 특정 노드에게 집중되어 있는 정도를 보여주는 지표, 연결망 전체에 부여되는 값 | ||
연결 정도 중심성 | 하나의 노드에 연결된 노드들의 합을 기반으로 중심성을 측정하는 방법 | ||
근접 중심성 | 각 노드 간의 거리를 기반으로 중심성을 측정하는 방법으로 하나의 노드와 다른 노드의 최소거리를 측정 | ||
매개 중심성 | 연결망 내에서 하나의 노드가 다른 노드들 사이에 위치하는 정도를 나타낸 지표로 한 노드가 담당하는 중재자 역할의 정도로 중심성을 측정한다 | ||
위세 중심성 | 보나시치 권력 중심성이라고도 하며 연결된 노드의 영향력에 가중치를 주어 중심성을 측정하는 방법이며 자신의 연결 정도 중심성에서 발생하는 영향력과 자신과 연결된 노드의 영향력을 합해 위세 중심성을 결정한다 | ||
기술통계 | 수집한 데이터를 요약, 묘사, 설명하는 기법으로 표본 자체의 속성 파악하는데 중점 | ||
추론통계 | 표본에서 얻은 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법 | ||
단순 무작위 표본 추출 | 모집단으로부터 표본을 균등한 확률로 추출하는 것으로 모집단에 대한 사전 지식이 많지 않을 때 적용하는 간편한 방식 | ||
체계 표본 추출 | 시간, 순서 및 공간의 동일한 구간을 정해 무작위로 하나의 단위를 추출하고 이후 K번째 간격마다 추출 | ||
층화 표본 추출 | 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 개의 층으로 분할한 후 각 층에서 단순 무작위 추출하는 표본추출방법 | ||
군집 표본 추출 | 모집단을 어떤 기준에 따라 서로 인접한 기본 단위로 군집을 형성한 후 하나의 군집을 추출해 추출된 군집 내의 일부 또는 전체를 조사하는 표본추출방법 | ||
편의 표본 추출 | 모집단에 대한 정보가 전혀 없거나 모집단 구성요소 간의 차이가 별로 없을 때 선정의 편리성에 기준을 두고 조사자가 마음대로 표본을 선정하는 표본추출방법, 길거리조사/ARS 의견조사 | ||
판단 표본 추출 | 조사자의 주관적 판단으로 조사에 필요한 대상만을 조사하는 표본추출방법 | ||
누적 표본 추출 | 사전에 알고있는 대상을 조사하고 건너 건너 다른 표본 대상도 조사하면서 눈덩이처럼 누적하여 표본을 추출하는 방법 | ||
할당 표본 추출 | 특정한 기준에 따라 여러 그룹을 구분하여 그룹별로 필요한 대상을 추출하는 표본추출방법 | ||
전사건 | 반드시 일어나는 사건 | ||
공사건 | 절대 일어날 수 없는 사건 | ||
확률변수 | 나타날 수 있는 확률적 결과를 수치로 표현한 값 | ||
확률분포 | 확률 변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지 그래프로 나타내는 것 | ||
확률분포함수 | 확률변수를 일직선상 공간에 표현한 함수 | ||
확률질량함수 | 이산확률분포의 확률분포를 나타낸 함수 | ||
누적분포함수 | 시작점을 음의 무한대로 통일한 특수 구간을 사용하는 함수 | ||
이항분포 | 베르누이를 여러 번 시행 시 성공하는 횟수를 확률변수로 하는 확률 분포 | ||
다항분포 | 각각의 경우가 나올 수 있는 횟수 집합의 분포 | ||
초기하분포 | 비복원 추출되는 경우에 사용되며 N개 중에 n번 추출했을때 원하는 것 k개가 뽑힐 확률의 분포 | ||
포아송분포 | 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포 | ||
정규분포 | 가우스분포라고도 하며 분포 곡선이 평균값을 중앙으로 해 좌우 대칭으로 종 모양을 이루는 분포 | ||
베르누이 시행 | 임의의 결과가 '성공' 또는 '실패'의 두 가지 중 하나인 실험 | ||
감마분포 | 특정 수의 사건이 일어날때까지 걸리는 시간에 관한 연속 확률분포 | ||
t 분포 | 정규분포의 한계를 보완한 분포로 더 넓은 예측범위를 사용한다. 0에 대해 좌우대칭을 이루며 종모양의 분포를 이루며 자유도가 커질수록 표준정규분포에 가까워진다 | ||
F 분포 | 두 데이터셋의 분산을 다루는 분포로 분산의 비율로 크기를 비교한다. 1에 가까울 수록 분산의 크기가 유사하다고 해석하며 일반적으로 왼쪽으로 치우친 모양을 가지고 있다. | ||
카이제곱분포 | 정규분포를 제곱하거나 제곱한 것을 더한 분포로 일반적으로 왼쪽으로 치우치며 오른쪽으로 긴 꼬리를 갖는 분포모양을 가진다. 자유도가 커질수록 정규분포에 가까우며 범주형 자료분석에 주로 쓰이는 검정이다 | ||
표본분포 | 모집단으로부터 일정한 크기의 표본을 무작위로 추출해 추출된 표본의 특성을 나타내는 통계량에 대한 분포 | ||
중심극한정리 | 모집단이 어떤 형태이든 간에 표본크기를 크게 해서 여러 번 반복 추출했을 시에, 정규 분포 형태이다. 표본 수가 작아도 모집단의 통계량을 구할 수 있다. | ||
불편성 | 추정량의 기댓값이 모수의 실제값과 유사할수록 좋다 | ||
효율성 | 모든 불편 추정량 중 분산이 작을수록 좋다 | ||
일치성 | 표본 크기를 크게 할수록 추정량이 모수와 가깝다 | ||
충분성 | 모수 정보를 더 많이 가질수록 좋은 추정량이다 | ||
귀무가설 | 실험, 연구를 통해 기각하고자 하는 어떤 가설 | ||
대립가설 | 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설 | ||
검정통계량 | 가설의 검정에 사용되는 표본 통계량으로 결론을 내릴 때 사용하는 판단 기준 | ||
유의수준 | 귀무가설이 참인데도 잘못 기각하는 오류를 범할 확률의 최대 허용 한계 | ||
기각역 | 귀무가설을 기각하게 될 검정통계량의 영역 | ||
채택역 | 귀무가설을 기각할 수 없는 검정통계량의 영역 | ||
유의확률 | p-value, 귀무가설을 지지하는 정도를 나타낸 확률 | ||
제 1종 오류 | 귀무가설이 참인데 잘못 기각시킬 확률, 알파 | ||
제 2종 오류 | 귀무가설이 거짓인데 기각시키지 않을 확률, 베타 | ||
검정력 | 대립가설이 참일 때 귀무가설을 기각하고 대립가설을 채택할 확률 | ||
비모수검정 | 모수에 대해 어떤 가정도 하지 않는 검정으로 이상치로 인해 평균보다 중앙값이 더 바람직할 때, 표본 크기가 작을 때, 순위와 같은 서수 데이터일 때 사용 | ||
신뢰수준 | n번 표본을 추출해서 구한 n개의 신뢰구간 중 모수를 포함하는 신뢰구간의 비율 | ||
T-검정 | 모집단이 정규분포일 경우 평균을 측정하거나, 두 집단 간의 평균을 비교할 때 사용, 적은 표본만으로도 모집단의 평균을 추정할 수 있음, 자유도가 증가할수록 표준 정규분포에 가깝다 | ||
단일표본 t 검정 | 하나의 모집단의 평균값을 특정 값과 비교하는 경우 사용하는 통계적 분석 방법 | ||
독립표본 t 검정 | 서로 독립적인 두 그룹의 평균 차이가 0인지 알아보는 검정 방법 | ||
대응표본 t 검정 | 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용 | ||
3. 빅데이터 모델링 |
분산분석 | 세 개 이상의 집단 간 평균을 비교할 때 사용하는 통계 방법으로 독립변수는 범주형, 종속변수는 연속형 | ANOVA |
데이터 마이닝 | 대규모로 저장된 데이터 속에서 수학적 분석을 통해 유의미한 패턴과 규칙을 찾아내는 과정 | ||
SAS | 간단한 명령문으로 여러 통계 분석을 실행할 수 있으며 대용량 데이터 분석이 상대적으로 용이하다. 고가의 라이선스가 필요함 |
||
SPSS | 사회 과학 자료 분석을 위한 통계 프로그램으로 고가의 라이선스가 필요하다, GUI 기반 | ||
Stata | 통계 패키지인 동시에 데이터 관리 시스템, 데이터 관리와 시각화 기능이 탁월하며 라이선스가 비교적 저렴 | ||
하둡 | 분산환경에서 빅데이터를 저장, 처리할 수 있는 자바 기반의 오픈소스 프레임워크 | ||
맵리듀스 | 대용량 데이터를 분산 병렬 컴퓨팅을 통해 처리하기 위해 구글에서 개발한 소프트웨어 프레임워크 | ||
과적합 | 모델이 학습 데이터를 과하게 학습해 새로운 데이터에 일반화하기가 어려움 | ||
과소적합 | 모델이 너무 단순해서 학습 데이터조차 제대로 예측하지 못하는 경우 | ||
L1 규제 | 일정한 상숫값이 페널티로 부여되어 일부 불필요한 가중치 파라미터를 0으로 만들어 분석에서 아예 제외시켜버리는 방법 , 라쏘 | ||
L2 규제 | 일부 가중치 파라미터를 제한하지만 완전히 0으로 만들지 않고 0에 가깝게 만들며 매우 크거나 작은 이상치의 가중치를 0에 가깝게 유도해 선형 모델의 일반화 성능을 개선함, 릿지 | ||
홀드아웃 | 가장 보편적인 데이터 분할을 통한 검증 방법으로 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식 | ||
부트스트랩 | 재표본추출 방법의 일종으로 중복추출을 허용해 랜덤하게 데이터를 추출하는 방법 | ||
연관분석 | 일련의 거래나 사건의 데이터 간에 존재하는 유용한 규칙을 발견하는 것 | 연관성 분석 | |
오피니언 마이닝 | 텍스트에서 추출된 감정 등의 주관적인 정보를 정량화하는 것 | 감성 분석 | |
강화학습 | 시스템이 어떤 행동을 할 때마다 보상 및 패널티를 줘서 시스템이 받는 보상이 최대가 되는 방향으로 학습을 진행하는 방법 | ||
군집분석 | 데이터를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 분석 방법 | ||
회귀분석 | 독립변수와 종속변수 간에 선형적인 관계를 도출해 독립변수가 종속변수에 미치는 영향 정도의 분석 및 종속변수 예측하는 분석 기법 | ||
단순회귀분석 | 독립변수와 종속변수가 1개씩일 때 이 둘 사이의 인과관계를 분석하는 것으로 두 변수의 관계가 선형이다 | ||
다중회귀분석 | 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀 분석으로 독립변수와 종속변수의 관계가 선형으로 표현됨 | ||
다항회귀분석 | 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀 분석으로 독립변수와 종속변수의 관계가 1차 함수 이상으로 표현된다 | ||
비선형회귀분석 | 종속변수를 독립변수와 회귀계수의 선형 결합으로 표현할 수 없는 경우 사용한다 | ||
등분산성 | 잔차의 분석이 독립변수와 무관하게 일정해야 하며 고르게 분포해야 함을 의미함 | ||
잔차 | 관측값과 회귀선의 차이 | ||
로지스틱 회귀분석 | 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측한다 | ||
오즈 | 확률 P가 주어졌을 때 사건이 발생할 확률이 사건이 발생하지 않을 확률의 몇 배인지에 대한 개념 | ||
의사결정 트리 | 데이터를 학습하여 데이터 내에 존재하는 규칙을 찾아내고 이 규칙을 나무 구조로 모형화해 분류와 예측을 수행하는 분석 방법 | ||
가지 | 노드와 노드를 잇는 선 | ||
CHAID | 종속변수가 이산형인 경우엔 카이제곱 통계량, 연속형인 경우 ANOVA F-통계량의 분류기준을 사용하며 p-value가 작아지는 방향으로 가지 분할 수행하는 알고리즘 | ||
CART | 종속변수가 이산형인 경우엔 지니 지수가 작아지는 방향으로, 연속형인 경우엔 분산 감소량이 커지는 방향으로 가지 분할을 수행하는 알고리즘 | ||
C4.5 | 엔트로피 지수가 작아지는 방향으로 가지 분할을 수행하는 알고리즘 | ||
step 함수 | 가장 기본적인 활성함수로 그래프가 계단 모양이며 출력값이 0 또는 1이다 | ||
sigmoid 함수 | 로지스틱 함수라고도 불리며, 특정 임곗값을 기준으로 출력값이 급격하게 변하는 step 함수와 달리 완만한 곡선 형태로 0과 1 사이값을 출력, 로짓함수와 역함수 관계인 함수 |
||
sign 함수 | 함수의 값이 중간에 갑자기 바뀌는 불연속함수로 입력값이 음수이면 -1, 양수이면 1을 출력하는 함수 | ||
tanh 함수 | 확장된 sigmoid 함수로 중심값이 0이며 -1과 1 사이의 값을 출력하며 학습속도가 빠르다 | ||
ReLU 함수 | 입력값이 0보다 작으면 0, 0보다 크면 입력값 그대로 출력하는 함수로 0보다 작은 값에 대해서는 기울기가 0이므로 뉴런이 작동하지 않을 수 있음 | ||
softmax 함수 | 목푯값이 다범주인 경우에 사용하는 함수로 입력받은 값을 정규화해 0과 1 사이의 값으로 출력한다 | ||
역전파 알고리즘 | 인공신경망을 학습시키기 위해 사용하는 일반적인 알고리즘으로 오차가 본래의 진행방향과 반대 방향으로 전파된다는 의미 | ||
인공신경망 | 실제 생물의 신경계를 모방해 예측 및 분류를 하는 머신러닝 알고리즘 | ||
활성함수 | 인공신경망에서 노드에 입력되는 값을 바로 다음 노드에 전달하지 않고, 비선형 함수에 통과시킨 후 전달하는 함수 | ||
svm | 주어진 데이터를 학습해 새로운 데이터가 어떤 범주에 속할지 결정하는 비확률적 이진 선형모델로 데이터가 n차원일때 데이터를 n-1차원의 초평면으로 분리함 | 서포트벡터머신 | |
마진 | 서포트벡터와 결정경계 사이의 거리 | ||
서포트벡터 | 결정경계와 가장 가까운 데이터 | ||
지지도 | 전채 거래 중에서 A와 B가 동시에 판매되는 거래의 비율 전체 거래 중 관심있는 삼품이 동시에 판매되는 비중으로 빈발 아이템 집합을 판별하는 데 사용 |
||
신뢰도 | A의 거래 중에서 B가 포함된 거래의 비율 상품 간에 존재하는 연관성 정도를 측정하는 지표 |
||
향상도 | A를 구매하지 않았을 때 B를 구매할 확률 대비 A를 구매했을 때 B의 구매확률 증가 비율 | ||
apriori | 지지도를 사용해 빈발 아이템 집합을 판별하고 계산의 복잡도를 감소시키는 알고리즘 | ||
유클리드 거리 | 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산하며 변수들의 산포 정도를 감안하지 않는다 | ||
k-means | 군집의 수를 사전에 정한 후 집단 내 동질성과 집단 간 이질성이 높게 전체 데이터를 군집으로 분할하는 알고리즘, 이상치의 영향을 많이 받고 군집의 형태가 볼록한 구 형태로 가정한다 | ||
단일연결법 | 최단연결법이라고도 하며, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 작은 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 사슬 형태의 군집 형성 | ||
완전연결법 | 최장연결법이라고도 하며, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 큰 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 둥근 형태의 군집 형성 | ||
평균연결법 | 모든 가능한 관측치 쌍 사이의 평균 거리를 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다 | ||
중심연결법 | 각 군집의 중심점 사이의 거리를 거리로 정의한 방법이다. 모든 관측치 사이의 거리를 측정할 필요없이 중심 사이의 거리를 한번만 계산한다 | ||
와드연결법 | 군집의 평균과 각 관측치 사이의 오차 제곱 합의 크기를 고려한 방법이다. 군집의 병합으로 인한 오차 제곱 합의 증가량이 최소가 되는 방향으로 군집을 형성. 비슷한 크기의 군집끼리 병합하는 경향이 있으며 군집 내 분산을 최소로 하기 때문에 좀 더 조밀한 군집이 생성될 수 있다. | ||
DBSCAN | 밀도 기반 군집 분석의 한 방법으로 개체들이 밀집한 정도에 기초해 군집을 형성하며 군집의 형태에 구애받지 않고 초기 군집의 수를 설정하지 않아도 된다 | ||
SOM | 코호넨 맵이라고도 불리며, 인공신경망을 기반 차원축소와 군집화를 동시에 수행할 수 있는 알고리즘이다. 하나의 전방 패스를 사용해 속도가 빠르고 잠재적으로 실시간 학습 처리가 가능한 모델이다 | 자기조직화지도 | |
RR | 위험인자에 노출되었을 때 질병이 발생할 확률과 위험인자에 노출되지 않았을 때 질병이 발생할 확률의 비 | 상대적 위험도 | |
코호트 연구 | 특정 위험인자가 질병 발생에 영향을 미치는 지를 확인하는 연구 방법 | ||
적합도 검정 | 카이제곱 검정의 일변량 분석 방법으로 데이터가 어떤 이론적 분포를 따르는지 검정하는 방법이다 | ||
독립성 검정 | 카이제곱 검정으로 각 범주가 종속변수에 영향을 주는지를 확인하는 검정 방법 | ||
동질성 검정 | 카이제곱 검정으로 각 부모집단으로부터 추출된 관측치들이 각 범주 내에서 서로 균일한 값을 가지는지를 검정하는 방법 | ||
다변량 분석 | 3개 이상의 변수들을 동시에 분석하는 모든 분석 방법 | ||
MANOVA | 2개 이상의 종속 변수가 주어졌을 때 각 범주 간의 평균 벡터의 차이를 비교하는 분석 방법 | 다변량분산분석 | |
요인분석 | 변수 간에 존재하는 상호 연관성을 바탕으로 데이터를 적은 수의 요인으로 압축 및 요약해 그룹화하는 방법 | ||
판별분석 | 두 개 이상의 모집단으로부터 추출된 표본들을 분석해 각 표본이 어느 모집단에서 추출된 것인지를 예측하는 분석 방법 | ||
시계열 분석 | 시간의 흐름에 따른 종속변수의 변화를 예측하는 것 | ||
추세요인 | 장기간 일정한 방향으로 상승 또는 하락하는 경향을 보이는 요인, 장기적인 변화의 추세를 보여주는 요인이다 | ||
순환요인 | 정확히 알려진 이유가 없고 주기가 일정하지 않은 변동 | ||
계절요인 | 일정한 주기를 가지는 상하 반복의 규칙적인 변동 | ||
불규칙요인 | 설명하지 못하는 오차에 해당하는 요인으로 어떠한 규칙성 없이 우연히 발생하는 예측 불가능한 변동 | ||
이동평균법 | 시계열 데이터에서 일정 기간별로 자료를 묶어 평균을 구하는 방법 | ||
지수평활법 | 최근 데이터일수록 큰 가중치를 부여, 오래된 데이터일수록 작은 비중을 부여하는 방식으로 평균을 계산하는 방식, 전체 시계열 데이터를 사용해 평균을 계산 | ||
가법모형 | 시계열 데이터가 네 종류의 시계열 구성요소의 합으로 구성된다고 가정하는 것 | ||
승법모형 | 시계열 데이터가 네 종류의 시계열 구성요소의 곱으로 구성된다고 가정하는 것 | ||
AR | 변수들의 자기상관성을 기반으로 한 시계열 모형, 과거 데이터와의 자기상관성을 분석해 시계열 특성을 분석 | 자기회귀모형 | |
MA | 현재 데이터가 과거 백색잡음의 선형 가중합으로 구성된다는 모형 | 이동평균모형 | |
ARIMA | 비정상 시계열 모형으로 불규칙한 시계열 데이터를 규칙적으로 바꿔주는 차분, 변환으로 정상화해 사용한다 | 자기회귀누적이동평균모형 | |
베이즈 정리 | 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 확률을 추정할 때 분석자의 사전지식까지 포함해 분석하는 방법 | ||
나이브 베이즈 | 스팸메일 필터링, 텍스트 분류 등에 사용할 수 있으며 베이즈 정리를 기반으로 한 지도학습 모델이다 | ||
딥러닝 | 연속된 여러 개의 층을 가진 인공신경망을 통해 계층적으로 데이터를 학습하는 방법 | ||
기울기 소실 문제 | 입력값이 크게 증가, 감소함에 따라 기울기가 작아지고 미분 값은 점점 0에 수렴해 학습속도가 느려지고 모델의 정확도가 하락 | ||
경사하강법 | 함수의 기울기를 구해 기울기가 낮은 쪽으로 계속 이동시켜 오차의 최솟값에 이르게 하는 방법 | ||
확률적 경사하강법 | 무작위로 샘플링된 하나의 샘플로 그래디언트를 계산하고 매개변수를 업데이트하는 방법 | SGD | |
사전학습 | 과적합이 발생하지 않게 신경망의 가중치와 편향을 초기화하는 방법 | ||
정규화 | 가중치가 클수록 큰 패널티를 줌으로써 모델의 복잡성을 줄이고 일반화 성능을 향상시키는 방법 | ||
드롭아웃 | 과적합을 방지하는 방법으로 일정 비율의 뉴런을 임의로 정해 삭제하여 학습에서 배제하는 방법 | ||
CNN | 이미지의 작은 조각으로 쪼개서 인식한 후 그 정보를 합쳐 하나의 사물로 판단하는 구조를 모방한 알고리즘 | 합성곱신경망 | |
패딩 | 이미지의 가장자리를 특정 값으로 감싸는 방법 | ||
풀링 | 합성곱 과정을 거친 데이터의 사이즈를 줄여주는 과정 | ||
스트라이드 | CNN에서의 필터의 이동량 | ||
RNN | 문장이나 시계열 데이터와 같이 순차적 형태의 시퀀스 데이터에 최적화된 알고리즘으로 장기 의존성 문제가 존재 | ||
LSTM | RNN의 장기 의존성 문제를 해결한 대표적 모델 | ||
밀도 | 연결망에서 노드 간의 연결 정도를 나타내는 지표로 가능한 총 연결의 수와 실제로 연결된 수의 비로 나타냄 | ||
앙상블 분석 | 주어진 데이터를 여러 개의 학습용 데이터셋으로 분할하고 각각의 학습용 데이터셋을 통해 여러 개의 예측모형을 만든 후 여러 예측모형의 결과를 종합해 하나의 최종결과를 도출하는 방법 | ||
배깅 | 부트스트랩 방식을 통해 여러 개의 크기가 같은 표본을 추출해 각 표본에 대해 예측모델을 적용 후 결과를 집계하는 방식 | ||
부스팅 | 예측력이 약한 모형을 연결하여 순차적으로 학습함으로써 예측력 강한 모형을 만드는 기법, 오분류된 데이터에 가중치를 주어 하나의 강한 분석 모형으로 만드는 앙상블 기법 | ||
랜덤 포레스트 | 배깅의 일종으로 변수 랜덤 선택 과정을 추가한 방법. 의사결정트리를 개별 모형으로 사용하는 모형결합방법으로 독립변수의 차원을 랜덤하게 감소시킨 다음 그 중에서 독립변수를 선택하는 방법 |
||
스태킹 | 서로 다른 예측 모델을 사용해 앙상블하는 방법, 개별 모델이 예측한 결괏값을 다시 학습 데이터셋으로 사용해 최종 예측에 사용한다는 특징 | ||
부호검정 | 비모수적 방법으로 중앙값을 통해 가설을 검정하는 방법 | ||
만-위트니 검정 | 비모수적 방법으로 독립된 두 집단의 중심 위치를 비교하기 위해 사용한다 | 윌콕슨의 순위합 검정 | |
런 검정 | 비모수적 방법으로 각 표본이 서로 독립적이라는 가설을 검정하기 위해 사용하는 방법으로 추출된 표본들이 특정 패턴없이 무작위로 구성됐는지를 검정 | ||
하드마진 | 엄격하게 초평면을 정의하는 방법으로 모든 입력값은 초평면을 사이로 무조건 한 클래스에 속해야하며 과적합의 가능성이 크다 | ||
소프트마진 | 여유변수를 도입한 서포트벡터머신으로 마진의 크기를 최대로 해 여유변수의 크기를 최소로 하는 결정 경계를 찾는 것을 목적으로 한다 | ||
C | 서포트벡터 머신의 파라미터로 오분류를 허용하는 정도를 나타낸다 | ||
EM 알고리즘 | 군집분석에서 사용하는 모수 추정 방법으로 모수 임의값 설정 후 잠재변수 Z 기대치 추정해 모수와 Z 수렴까지 반복하는 알고리즘 | ||
4. 빅데이터 결과 해석 |
혼동행렬 | 이진 분류에서 모형이 예측한 값과 실제 값의 조합을 교차표형태로 정리한 행렬 | |
정확도 | 전체 데이터에서 올바르게 분류한 데이터의 비율 | ||
정밀도 | positive로 예측한 것 중에서 실제값이 positive인 비율 | ||
재현율 | 실제 positive 인 값 중 positive로 분류한 비율 | 민감도, 참 긍정율, TPR | |
특이도 | 실제 negative인 값 중 negative로 분류한 비율 | 참 부정율, TNR | |
거짓 긍정률 | 실제 negative인 값 중 positive로 잘못 분류한 비율 | FPR | |
F1-score | 정밀도와 재현율의 조화평균 | ||
ROC 곡선 | 임곗값을 다양하게 조절해 분류 모형 성능을 비교할 수 있는 그래프, TPR을 y축, FPR을 x축에 두어 시각화 | ||
AUC | ROC 곡선 아래의 면적, 면적이 넓을수록 분류 잘하는 모형 | ||
MAE | 모형의 예측값과 실제값의 차이를 평균한 값 | 평균절대오차 | |
MSE | 모형의 예측값과 실제값의 차이를 제곱하여 평균한 값 | 평균제곱오차 | |
RMSE | MSE에 루트를 씌운 값 | 평균제곱근오차 | |
MAPE | 실제값 대비 오차를 평균한 값 | 평균절대백분율오차 | |
결정계수 | 주어진 데이터에 회귀선과의 적합 정도를 평가하는 척도, 독립변수들이 종속변수를 얼마나 잘 설명하는지 보여주는 지표 | R^2 | |
SST | 전체제곱합, 관측된 값이 평균과 얼마나 차이가 있는지 의미함, Y가 가진 총 변동성 | ||
SSR | 회귀제곱합, 회귀선으로 설명할 수 있는 변동 | ||
SSE | 오차제곱합, 회귀식으로 설명되지 않는 변동 | ||
교차검증 | 데이터를 나누고 학습하는 과정을 여러 차례 반복함으로써 일반화 성능을 평가 | ||
Z-검정 | 정규분포를 가정, 추출된 표본이 동일한 모집단에 속하는지에 대한 가설 검증하기 위해 사용 | ||
모멘텀 | 물리학의 운동량에서 유래한 단어로 SGD가 가는 방향에 가속도를 부여해주는 알고리즘 | ||
AdaGrad | 매개변수별 적응 학습률을 사용하는 알고리즘으로 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률로 조정하고 그렇지 않은 매개변수들은 학습률을 크게 조정한다 | ||
Adam | 오래된 기울기의 영향력을 지수적으로 줄여 AdaGrad를 개선한 RMSProp에 모멘텀을 더한 것으로 최근 가장 많이 사용하는 알고리즘 | ||
보팅 | 서로 다른 알고리즘을 사용한 여러 분석 모형의 결과를 두고 투표를 통해 최종 예측 결과를 결정하는 앙상블 기법 | ||
임베딩 | 기계가 이해할 수 있게 숫자 형태인 벡터로 바꾼 결과, 또는 바꾸는 일련의 과정 | ||
인포그래픽 | 다양한 시각화 도구로 데이터를 간소화해 쉽게 이해할 수 있게 만든 그래픽 메시지 | ||
등치선도 | 지리적으로 같은 데이터를 가진 곳을 선으로 이어서 시각화하는 방법 | ||
카토그램 | 특정 성질을 가진 인구의 분포를 데이터 값의 변화에 따라 지도 위에 나타낸 것 | ||
트리맵 | 사각형을 이용해 데이터의 값을 나타내는 것. 서로 다른 크기를 이용해 비율을 나타내며 사각형을 겹쳐 놓아 대분류와 하위 분류를 나타낸다 | ||
히스트그램 | 표로 되어있는 도수 분포를 정보 그림의 형태로 변경한 것으로 가로축은 정량적인 값으로 특정한 간격이 있고, 각 구간에 대응하는 값의 빈도를 높이로 세로축에 표현한다 | ||
히트맵 | 여러 변수를 한 번에 비교하기 위해 흔히 사용되는 그래프 행 방향은 관측 개체를 나타내고 열 방향은 각각의 변수로 나타내 각 칸에 색상을 이용해 값을 표현 |
||
빅데이터 큐레이션 | 빅데이터 전략을 제시하고 최적의 빅데이터 구축에서 시작해 분석 및 결과 활용까지 전 과정을 지휘하는 활동 |
+ 1회 기출문제
후진제거법(후진소거법)
이상치 +
부스팅
하이퍼파라미터 +
roc curve
gradient descent boosting model +
'Career > Certificate' 카테고리의 다른 글
[SQLD] 1. 데이터 모델링의 이해 (0) | 2022.03.01 |
---|---|
제 2회 빅데이터분석기사 후기 (0) | 2021.07.16 |
[빅데이터분석기사] 실기 - sklearn (1) | 2021.06.10 |
[빅데이터분석기사] 실기 - 작업형 제 1유형 (2) | 2021.06.09 |
[빅데이터분석기사] 실기 예시 풀이 (2) | 2021.05.31 |
댓글