본문 바로가기

Analysis38

Lecture 4. 시계열 데이터 분리 및 회귀분석 데이터 준비 - 비시계열 vs 시계열 비시계열 - Simple, K-fold, Holdout 시계열 - Time series cross-validation ( 단기, 장기 ) 회귀분석 (1) 검증지표 R^2 t-검정 : 독립변수와 종속변수 간의 선형관계 신뢰성 정도 F-검정 : 독립변수의 분산과 종속변수의 분산간의 관계를 사용해 성능 평가 AIC, BIC : 정보량 기준, 값이 작을수록 올바른 모형 (2) 잔차진단 회귀분석 잔차진단 가정 - 잔차 분포가 정규성, 독립성, 등분산성 시계열 회귀 잔차진단 - 정상성(백색잡음), 정규분포, 자기상관(시간흐름에서 독립적), 등분산성 시계열 데이터 분리 - 시간순 def datasplit_ts(raw, Y_colname, X_colname, criteria): r.. 2021. 3. 13.
Lecture 3. 시계열 데이터 패턴 추출 0. 데이터 로드 케글 데이터 - 자전거 수요 www.kaggle.com/c/bike-sharing-demand/data Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com raw_all = pd.read_csv('Bike_Sharing_Demand_Full.csv') raw_all 1. 빈도(Frequency) 빈도를 시간으로 설정한 후, NaN 값은 앞의 값으로 채운다. raw_all.set_index('datetime', inplace=True) raw_all = raw_all.asfreq('H', method='ffill') 2. 추세(Trend, 𝑇𝑡) additive 모형으로 데이터 분해 : trend + sea.. 2021. 3. 13.
Lecture 2. 시계열 알고리즘 알고리즘 선택 방법 1) 문제가 어디에 속하는지 -> "분석기획(가설/방향)" 가능 2) 알고리즘마다 입력은 무엇인지 -> "데이터전처리(준비)" 가능 3) 알고리즘마다 출력은 무엇인지 -> "결과해석(설명/검증)" 가능 Time series analysis 이 주로 사용하는 Algorithms 1) Regression 2) Regularization 3) Clustering 시계열에서 고려해야할 대표적 성분들 - Feature Engineering 방법 7가지 빈도(Frequency): 계절성 패턴(Seasonality)이 나타나기 전까지의 데이터 갯수로 사람이 정해야 함 (일,주,월,연 등) 추세(Trend, 𝑇𝑡): 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seaso.. 2021. 3. 13.
Lecture 1. 시계열 데이터 기초 횡단면 데이터 시계열 데이터 시계열 횡단면 데이터 패널 데이터 특정시점 + 다수독립변수 다수시점 + 특정독립변수 다수독립변수 + 다수시점 다수독립변수 + 다수시점 (동일 변수 및 시점) 값 독립적, 모집단 중 특정 시점 표본추출 값 Serial-correlation/Trend/Seasonality 등 시점/변수 불일치로 공백 가능 시점/변수 일치로 연구자들이 가장 선호 시계열분석 Target 데이터: 최소 시계열 / 시계열 횡단면 / 패널 데이터 (횡단면 데이터 - 시계열 분석 불가) 시계열분석 시간축: 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 통계 기본용어 중심 통계량 - 평균, 중앙값, 최빈값 변동 통계량 - 범위, 편차, 변동, 분산, 표준편차 형태 통계량 - 왜도,.. 2021. 3. 12.
Lecture 0. 데이터 분석 사이클 데이터 분석 사이클 - 분석 목적 이해 0. 문제정의: 무엇을 분석할지 정한다 문제정의가 없으면 분석은 시작할 필요가 없다 문제정의에 많은 고민을 해야 한다 문제정의에 모든 구성원이 동의할 수 있도록 끊임없이 커뮤니케이션 해야 한다 1회성이 문제정의가 아니라 필요시 끊임없이 진화/변경시켜야 한다 1. 데이터수집: 소스별 데이터 추출 및 저장(Loading) 데이터가 없으면 분석은 시작할 필요가 없다 문제 답의 보기후보가 데이터에 없으면 분석을 시작할 필요가 없다 (어떤 연령이 TV를 보는지 알고 싶은데 데이터에 연령이 없으면 불가) 알고리즘/기술보다 데이터수집부터 시작하기 위한 작업을 착수해야 한다 데이터는 많을수록 좋지만 양보다(Row) 질(Column)을 늘려야 분석을 한 의미가 생긴다 보기가 데이터.. 2021. 3. 10.
[openCV] 이미지 슬라이드쇼 import sys import glob import cv2 import os os.chdir('C:\\Users\\leeso\\Documents\\카카오톡 받은 파일\\코코') img_files = glob.glob('*.jpg') 폴더 안에 있는 jpg 파일명 모두 img_files에 저장 cv2.namedWindow('image', cv2.WINDOW_NORMAL) 윈도우 창 만든 후 cv2.WINDOW_NORMAL 로 설정해 마우스로 창 크기 조절 가능 cnt = len(img_files) idx = 0 while True: img = cv2.imread(img_files[idx]) if img is None: print('Image load failed!') break cv2.imshow('im.. 2021. 3. 6.
[openCV / matplotlib] 영상 출력 1. openCV API (1) imread import cv2 img = cv2.imread('cat.bmp',cv2.IMREAD_GRAYSCALE) image read 함수로 영상 불러와 변수에 저장 imread( 파일 이름, 파일 불러올 옵션 플래그 ) -> 영상 데이터 픽셀값 출력 ( numpy.ndarray ) cv2.IMREAD_COLOR ( BGR 컬러 - default값 ) cv2.IMREAD_GRAYSCALE ( 그레이스케일 ) cv2.IMREAD_UNCHANGED ( 속성 그대로 - 투명 파일도 가능 ) (2) imwrite cv2.imwrite('cat_gray.png',img) image write 함수로 영상 파일 저장하기 imread( 파일 이름, 영상 데이터, 파일 저장 옵션 .. 2021. 3. 6.
Computer Vision 컴퓨터 비전 소개 1. 컴퓨터 비전(Computer Vision)과 영상 처리(Image processing) 컴퓨터 비전과 영상 처리는 유사한 의미, 따로 차이를 두지 않음 영상 = 사진 동영상 = 움직이는 영상 2. Computer Vision의 분야 영상 화질 개선 객체 검출 및 인식 머신 비전 - 공장 자동화 등 인공지능 서비스 - 자율 주행, 로봇 등 3. 영상(Image) 영상의 기본 단위인 픽셀 (화소) RGB (red, green, blue) 픽셀이 2차원 행렬 형태로 나타남 Grayscale VS Color (1) Grayscale 그레이스케일 영상 흑백사진처럼 색상 없이 밝기 정보로만 256단계로 표현된 영상 밝기 성분을 0~255 정수값으로 표현하며 검정색 0, 흰색 255 임 1px = 1byte를 .. 2021. 3. 4.
물류 네트워크 설계 - 생산 계획 1. 전제조건 어떤 제품을 얼마나 만들 것인지 생산 계획 2021/02/15 - [Data/Data Analysis] - 물류 네트워크 설계 - 최적화 라이브러리 물류 네트워크 설계 - 최적화 라이브러리 1. 전제조건 제품 판매하는 대리점 P, Q 판매되는 상품 A, B 상품 일정 수요 예측해 공장 X, Y 에서 생산 제품마다, 공장마다 다른 생산라인 레인 0, 1 공장에서 대리점까지 운송비, 제고 비용 등 고려 5ohyun.tistory.com 2. 데이터 정보 product_plan_material.csv : 제품 제조에 필요한 원료 비율 - 제품 2개, 원료 3개 product_plan_profit.csv : 제품 이익 - 제품 2개 product_plan_stock.csv : 원료 재고 - 원료 .. 2021. 2. 18.
물류 네트워크 설계 - 최적화 라이브러리 1. 전제조건 제품 판매하는 대리점 P, Q 판매되는 상품 A, B 상품 일정 수요 예측해 공장 X, Y 에서 생산 제품마다, 공장마다 다른 생산라인 레인 0, 1 공장에서 대리점까지 운송비, 제고 비용 등 고려해 생산 방법 결정 2. 데이터 정보 trans_cost.csv demand.csv supply.csv trans_route_pos.csv import os import pandas as pd import numpy as np import matplotlib.pyplot as plt import networkx as nx from itertools import product from pulp import LpVariable, lpSum, value from ortoolpy import model_.. 2021. 2. 15.