Data Engineering
- 데이터 엔지니어는 데이터 사이언티스트와 협업하는 업무 (1) 수집, 가공, 저장 1. 서비스들에서 나오는 수많은 데이터들을 수집하기 위해서 데이터 파이프라인을 설계, 구축함 2. 쉽게 사용할 수 있도록 가공처리, 데이터에 따라 스트리밍 및 배치 처리 작업 - 스트리밍 데이터 수집기 : logstash, fluentd, MQ(Kafka, rabbitMQ), Redis - 스트리밍 데이터 가공 : storm, flink, spark streaming - 해당 처리를 하는 환경에서는 프로그래밍 필요 : python, Scala, java 등 - 저장 : HDFS, AWS A3, GCP(Google Cloud Platform), RDB, Google Bigquery (2) 분석 Hadoop, Spark, H..
2022. 11. 16.
ODS, DW, DM, ETL
- ODS : Operational Data Source 많은 양의 데이터를 정형화시켜 저장하는 공간, DW가 활용할 수 있는 임시 운영 데이터 저장, 운영계에서는 최종 데이터 형상으로 데이터를 주로 관리하기 때문에 ODS로 시계열로 변환해 이력 데이터 보관 소스 데이터를 가져와 정제, 통합, 변환된 형태로 보관하고 DW로 공급해주는 데이터 준비 공간(Operational Data Source) - DW : Data Warehouse 활용할 수 있는 형태로 만들어 저장, 관리, 분석할 수 있는 시스템 - DM : Data Mart DW의 일부, 특정 분야에서 필요한 데이터들만 꺼내 저장 - ETL : Extraction-Transformation-Load ODS에서 DW, DM까지 데이터 추출, 변형, ..
2022. 10. 31.