https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=9
데이터 인프라의 목적
- 비즈니스 리더들의 의사결정 돕기
- 서비스/제품을 데이터 활용으로 향상시키기
데이터 인프라 기초
- 데이터 웨어하우스
- 데이터 웨어하우스가 필요한 이유 (Production Systems)
- Production Systems에서 각각 데이터에 대한 분석을 처리
- Production Systems
- 데이터가 생성되는 곳
- ERP / CRM / Database
- 데이터 웨어하우스란
- 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장
- 데이터의 차이
- Production systems
- Normalized Schema
- 작은 테이블로 데이터를 쪼갬
- Data Warehouse
- Demensional Schema
- 더 작고 간단한 구조의 테이블 사용 (Star Schema)
- 다른 이유
- Data Warehouse는 데이터 분석이 목적
- 쉽게 데이터를 추출하는 것이 더 중요
- Production systems
- 데이터 웨어하우스가 필요한 이유 (Production Systems)
- 데이터 옮기기 (ETL)
- 추출(Extract) -> 변환(Transform) -> 적재(Load)
- 추출
- 데이터를 Production System에서 추출 - 변환
- normalized schema에서 dimensional schema로 변환 - 적재
- Data warehouse에 저장 - 문제점
- 추출과 변환이 자동화될 수 없음
- 변환이 회사마다 다름 -> 자동화와 수정이 어려움
- ELT
- 데이터 옮기기 (ELT)
- 추출 -> 적재 -> 변환
- [참고] 그림
- 그림 출처
- 위 그림은 2020년도에 작성된 내용
- 현재 그림은 아래와 같이 변경됨 (OLTP, log analysis, and SaaS analytics apps이 제외됨)
- Source
- 데이터가 생성되는 곳
- Production Systems - Ingestion and Transfromation
- 가져오고 변환 - Storage
- Data Warehouse
- Data Lake - Historiacl
- 과거 데이터를 분석 - Predictive
- 미래를 예측 - Output
- 결과를 보여줌
'데이터 엔지니어링 > 데이터 플랫폼' 카테고리의 다른 글
[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect) (0) | 2022.04.24 |
---|---|
[데이터플랫폼] 최신 데이터 인프라 이해하기 #3 - ETL/ELT 도구들 (Fivetran, Stitch, Matillion, Panoply) (0) | 2022.04.24 |
[데이터플랫폼] 최신 데이터 인프라 이해하기 #2 - 데이터 소스 (0) | 2022.04.24 |
[데이터플랫폼] 데이터 파이프라인이란 (0) | 2022.04.24 |
[데이터플랫폼] 텔레메트리 조사 (0) | 2022.04.22 |