[2019-1] 데이터마이닝 팀프로젝트 - 인천 외국인 관광객 유입방안 제시
R program
2019- 1 데이터마이닝 수업 팀프로젝트를 진행했을 때의 EDA보고서와 발표자료, 보고서를 복기한 자료이다.
부산만큼의 인천의 외국인 관광객 유치 가능성을 예상해
인천공항으로 들어오는 외국인 관광객을 인천으로 유입시키는 방안을 제시하고자
‘어떤’ 외국인 관광객들이 ‘언제’ 가장 많이 입국할 지 예측하기 위해 시계열 분석기법을 사용하였으며,
어떤 변수가 관광객 유치에 필요한지 알아보기 위해 의사결정나무 기법을 사용했다.
1. 데이터 준비
- 월별 관광객 수 ( 2013년~ 2019년 ) : 인천관광공사 데이터
인천공항으로 들어오는 관광객을 유입시키는 것이 목표이므로
입국항 – 인천공항, 교통수단 – 공항 선택, 성별 - 승무원 제외 (연령 - crew 제외)
목적은 기타를 제외한 4가지 목적 중 공용, 상용 제외(넓은 범위의 의미이기 때문에)
2. EDA
- 주 방문국가 시계열 plot
- 목적별 시계열 plot
유학연수에서 계절성이 뚜렷하게 드러난다.
- 성별 시계열 plot
여성이 뚜렷하게 더 많이 입국함을 알 수 있었다.
EDA 자료 생략
3. 시계열 분석
2015년에 있었던 메르스 사태 때문에 모든 나라의 증가 추세가 중간에 소폭 감소한 것을 알 수 있다.
중국은 싸드 문제로 인해 관광객이 2017년 대폭 감소했지만 점차 회복하고 있다. 계절성은 모두 뚜렷한 것으로 보인다.
왼쪽 위부터 ARIMA, 지수평활, neural network, TBATS, BATS, 계절조정 후 재계절화 기법, structural, naïve
최적의 모형을 찾기 위해 8가지 모형 적합했으며 test set을 이용하여 MASE가 가장 작은 모델 선택함
중국의 경우 2017년부터 외국인 관광객이 감소하고 있으며 예측이 되지 않아
2015년 메르스 문제를 감안해 이상치를 보정해봤지만 결과는 같았고 싸드 문제의 여파가 큰 것을 알 수 있다.
4. 의사결정나무 Decision Tree
- 목표변수 : 재방문 의사 – Yes = 1, No = 0
- 분할기준 : 지니 지수
- 랜덤으로 데이터의 70%를 train set, 30%를 test set으로 선정해 정확도 평가
'Career > Project' 카테고리의 다른 글
[2019-2] 의약품 제조업 주가예측 (0) | 2021.01.31 |
---|---|
[2019-1] 삼성 브라이틱스 데이터 분석 대회 (0) | 2021.01.31 |
[2018-1] 베스트셀러 분석 (0) | 2021.01.31 |
[2019-1] 데이터베이스 설계 (0) | 2021.01.31 |
댓글