데이터 엔지니어링/데이터 플랫폼
[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect)
pythaac
2022. 4. 24. 23:01
https://www.youtube.com/watch?v=IdVO1dC4bM8
Data Modeling
- 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음)
dbt (Data Build Tool)
- Analytics engineering tools designed for analysts
- 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음
- 데이터 변환을 SQL로 모델링해볼 수 있음
- Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음
LookML
- Looker
- BI 도구
- 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구
Workflow Manager
- Source에서 Data Warehouse/Data Lake로 옮기는 것을 workflow 단위로 관리
Airflow
- 비슷한 역할
- Apache Oozie - Workflow Scheduler for Hadoop
- Luigi
- 기능
- task scheduling
- 언제 어떤 테스크를 수행할지 - distributed execution
- 분산 실행 - dependency management
- 위상정렬
- task scheduling
- 워크플로우 예시
- Airflow 구조
Dagster
- Airflow와 같음
- local이던 cloud든 실행 가능
Prefect
- Airflow보다 최근에 만들어짐
- Airflow보다 사용하기 쉬움
- 오픈소스