본문 바로가기
Career/Project

[2019-1] 인천 외국인 관광객 유입방안 제시

by 5ole 2021. 1. 31.
[2019-1] 데이터마이닝 팀프로젝트 - 인천 외국인 관광객 유입방안 제시
R program

 

2019- 1 데이터마이닝 수업 팀프로젝트를 진행했을 때의 EDA보고서와 발표자료, 보고서를 복기한 자료이다.

 

부산만큼의 인천의 외국인 관광객 유치 가능성을 예상해

인천공항으로 들어오는 외국인 관광객을 인천으로 유입시키는 방안을 제시하고자

‘어떤’ 외국인 관광객들이 ‘언제’ 가장 많이 입국할 지 예측하기 위해 시계열 분석기법을 사용하였으며,

어떤 변수가 관광객 유치에 필요한지 알아보기 위해 의사결정나무 기법을 사용했다.

 

 

1. 데이터 준비

  • 월별 관광객 수 ( 2013년~ 2019년 ) : 인천관광공사 데이터

2013년 1월부터 2019년 2월까지의 방한 외래관광객 세부통계 데이터 이용

 

인천공항으로 들어오는 관광객을 유입시키는 것이 목표이므로

입국항 – 인천공항, 교통수단 – 공항 선택, 성별 - 승무원 제외 (연령 - crew 제외)

목적은 기타를 제외한 4가지 목적 중 공용, 상용 제외(넓은 범위의 의미이기 때문에)

 

2. EDA

 

  • 주 방문국가 시계열 plot

나라별 시계열 플랏

 

  • 목적별 시계열 plot

관광 공용 상용
유학연수 기타

 

유학연수에서 계절성이 뚜렷하게 드러난다.

 

  • 성별 시계열 plot

여성이 뚜렷하게 더 많이 입국함을 알 수 있었다.

< 성별 연령별 시계열 플랏 (대만 예시) >

 

EDA 자료 생략

 

3. 시계열 분석

 

2015년에 있었던 메르스 사태 때문에 모든 나라의 증가 추세가 중간에 소폭 감소한 것을 알 수 있다.

중국은 싸드 문제로 인해 관광객이 2017년 대폭 감소했지만 점차 회복하고 있다. 계절성은 모두 뚜렷한 것으로 보인다.

 

예시) 미국 31~60세 남자 관광객 데이터

왼쪽 위부터 ARIMA, 지수평활, neural network, TBATS, BATS, 계절조정 후 재계절화 기법, structural, naïve

최적의 모형을 찾기 위해 8가지 모형 적합했으며 test set을 이용하여 MASE가 가장 작은 모델 선택함

 

시계열 예측

중국의 경우 2017년부터 외국인 관광객이 감소하고 있으며 예측이 되지 않아

2015년 메르스 문제를 감안해 이상치를 보정해봤지만 결과는 같았고 싸드 문제의 여파가 큰 것을 알 수 있다.

 

 

4. 의사결정나무 Decision Tree

 

  • 목표변수 : 재방문 의사 – Yes = 1, No = 0
  • 분할기준 : 지니 지수
  • 랜덤으로 데이터의 7­­­0%train set, 30%test set으로 선정해 정확도 평가

 

 

댓글