본문 바로가기

Archive109

Lecture 0. 데이터 분석 사이클 데이터 분석 사이클 - 분석 목적 이해 0. 문제정의: 무엇을 분석할지 정한다 문제정의가 없으면 분석은 시작할 필요가 없다 문제정의에 많은 고민을 해야 한다 문제정의에 모든 구성원이 동의할 수 있도록 끊임없이 커뮤니케이션 해야 한다 1회성이 문제정의가 아니라 필요시 끊임없이 진화/변경시켜야 한다 1. 데이터수집: 소스별 데이터 추출 및 저장(Loading) 데이터가 없으면 분석은 시작할 필요가 없다 문제 답의 보기후보가 데이터에 없으면 분석을 시작할 필요가 없다 (어떤 연령이 TV를 보는지 알고 싶은데 데이터에 연령이 없으면 불가) 알고리즘/기술보다 데이터수집부터 시작하기 위한 작업을 착수해야 한다 데이터는 많을수록 좋지만 양보다(Row) 질(Column)을 늘려야 분석을 한 의미가 생긴다 보기가 데이터.. 2021. 3. 10.
[openCV] 이미지 슬라이드쇼 import sys import glob import cv2 import os os.chdir('C:\\Users\\leeso\\Documents\\카카오톡 받은 파일\\코코') img_files = glob.glob('*.jpg') 폴더 안에 있는 jpg 파일명 모두 img_files에 저장 cv2.namedWindow('image', cv2.WINDOW_NORMAL) 윈도우 창 만든 후 cv2.WINDOW_NORMAL 로 설정해 마우스로 창 크기 조절 가능 cnt = len(img_files) idx = 0 while True: img = cv2.imread(img_files[idx]) if img is None: print('Image load failed!') break cv2.imshow('im.. 2021. 3. 6.
[openCV / matplotlib] 영상 출력 1. openCV API (1) imread import cv2 img = cv2.imread('cat.bmp',cv2.IMREAD_GRAYSCALE) image read 함수로 영상 불러와 변수에 저장 imread( 파일 이름, 파일 불러올 옵션 플래그 ) -> 영상 데이터 픽셀값 출력 ( numpy.ndarray ) cv2.IMREAD_COLOR ( BGR 컬러 - default값 ) cv2.IMREAD_GRAYSCALE ( 그레이스케일 ) cv2.IMREAD_UNCHANGED ( 속성 그대로 - 투명 파일도 가능 ) (2) imwrite cv2.imwrite('cat_gray.png',img) image write 함수로 영상 파일 저장하기 imread( 파일 이름, 영상 데이터, 파일 저장 옵션 .. 2021. 3. 6.
Computer Vision 컴퓨터 비전 소개 1. 컴퓨터 비전(Computer Vision)과 영상 처리(Image processing) 컴퓨터 비전과 영상 처리는 유사한 의미, 따로 차이를 두지 않음 영상 = 사진 동영상 = 움직이는 영상 2. Computer Vision의 분야 영상 화질 개선 객체 검출 및 인식 머신 비전 - 공장 자동화 등 인공지능 서비스 - 자율 주행, 로봇 등 3. 영상(Image) 영상의 기본 단위인 픽셀 (화소) RGB (red, green, blue) 픽셀이 2차원 행렬 형태로 나타남 Grayscale VS Color (1) Grayscale 그레이스케일 영상 흑백사진처럼 색상 없이 밝기 정보로만 256단계로 표현된 영상 밝기 성분을 0~255 정수값으로 표현하며 검정색 0, 흰색 255 임 1px = 1byte를 .. 2021. 3. 4.
물류 네트워크 설계 - 생산 계획 1. 전제조건 어떤 제품을 얼마나 만들 것인지 생산 계획 2021/02/15 - [Data/Data Analysis] - 물류 네트워크 설계 - 최적화 라이브러리 물류 네트워크 설계 - 최적화 라이브러리 1. 전제조건 제품 판매하는 대리점 P, Q 판매되는 상품 A, B 상품 일정 수요 예측해 공장 X, Y 에서 생산 제품마다, 공장마다 다른 생산라인 레인 0, 1 공장에서 대리점까지 운송비, 제고 비용 등 고려 5ohyun.tistory.com 2. 데이터 정보 product_plan_material.csv : 제품 제조에 필요한 원료 비율 - 제품 2개, 원료 3개 product_plan_profit.csv : 제품 이익 - 제품 2개 product_plan_stock.csv : 원료 재고 - 원료 .. 2021. 2. 18.
물류 네트워크 설계 - 최적화 라이브러리 1. 전제조건 제품 판매하는 대리점 P, Q 판매되는 상품 A, B 상품 일정 수요 예측해 공장 X, Y 에서 생산 제품마다, 공장마다 다른 생산라인 레인 0, 1 공장에서 대리점까지 운송비, 제고 비용 등 고려해 생산 방법 결정 2. 데이터 정보 trans_cost.csv demand.csv supply.csv trans_route_pos.csv import os import pandas as pd import numpy as np import matplotlib.pyplot as plt import networkx as nx from itertools import product from pulp import LpVariable, lpSum, value from ortoolpy import model_.. 2021. 2. 15.
물류 비용 최소화 - 네트워크 가시화, 최적화 1. 전제조건 제품의 부품을 보관하는 창고에서 공장까지 운송 비용을 낮추기 어떤 창고에서 어떤 공장으로 어느 정도의 양을 운송할 지 검토 2. 데이터 정보 trans_route.csv : 운송 정보 - 공장에서 창고까지 얼마나 운송했는지 trans_route_pos.csv : 노드 좌표 trans_cost.csv : 각 경로에 필요한 비용 demand.csv : 공장 수요량 supply.csv : 창고 공급량 trans_route_new.csv : trans_route에서 변경된 데이터 (W1에서 F4 운송을 줄이고, W2에서 F4로 운송 보충) import os import pandas as pd import numpy as np import networkx as nx import matplotlib... 2021. 2. 15.
물류 데이터 분석 - 데이터 가공, 통계량 파악 1. 전제조건 제품의 부품을 보관하는 창고에서 생산 공장까지 운송 비용을 낮추기 북부지사와 남부지사의 데이터 Cost는 단위가 만원 2. 데이터 정보 tbl_factory.csv : 생산 공장 데이터 (8,4) (FCID, FCName, FCDemand, FCRegion) tbl_warehouse.csv : 창고 데이터 (6,4) (WHID, WHName, WHSupply, WHRegion) rel_cost.csv : 창고와 공장간의 운송비용 (24,4) (RCostID, FCID, WHID, Cost) tbl_transaction.csv : 2019년의 공장으로의 부품 운송 실적 (4000,5) (TRID, TransactionDate, ToFC, FromWH, Quantity) 3. 데이터 가공 (1.. 2021. 2. 15.
스포츠센터 회원 분석 - 의사결정나무 1. 전제조건 스포츠센터 고객분석 데이터 사용 행동 패턴을 분석할 수 있으면 어떤 회원이 탈퇴할지 예측도 가능 탈퇴 회원이 왜 탈퇴했는지 분석 [ 이전글 ] 2021/01/30 - [Data/Data Analysis] - 스포츠센터 회원 분석 - 데이터 가공, 통계량 파악 스포츠센터 회원 분석 - 데이터 가공, 통계량 파악 1. 전제조건 (1) 3가지의 회원권 종류 종일회원 : 언제든 사용할 수 있음 주간회원 : 낮에만 사용가능 야간회원 : 밤에만 사용가능 (2) 입회비 일반적으로는 입회비 비용 있음 비정기적으로 입회비 5ohyun.tistory.com 2021/01/30 - [Data/Data Analysis] - 스포츠센터 회원 분석 - 클러스터링, 회귀분석 스포츠센터 회원 분석 - 클러스터링, 회귀.. 2021. 2. 7.
[sklearn / statsmodels] 선형회귀 Linear Regression 1. 독립변수와 종속변수의 관계 살펴보기 - scatter plot import pandas as pd import seaborn as sns from matplotlib import pyplot as plt from sklearn.model_selection import train_test_split #df sns.pairplot(df[["MEDV", "RM", "AGE", "CHAS"]]) plt.show() #X #y X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) 2. 선형회귀 - scikit-learn, statsmodels 패키지 비교 scikit-learn은 상수항 결합을 자동으로 해줘 add_constan.. 2021. 1. 31.