https://www.youtube.com/watch?v=IdVO1dC4bM8
Data Modeling
- 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음)
dbt (Data Build Tool)
- Analytics engineering tools designed for analysts
- 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음
- 데이터 변환을 SQL로 모델링해볼 수 있음
- Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음
LookML
- Looker
- BI 도구
- 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구
Workflow Manager
- Source에서 Data Warehouse/Data Lake로 옮기는 것을 workflow 단위로 관리
Airflow
- 비슷한 역할
- Apache Oozie - Workflow Scheduler for Hadoop
- Luigi
- 기능
- task scheduling
- 언제 어떤 테스크를 수행할지 - distributed execution
- 분산 실행 - dependency management
- 위상정렬
- task scheduling
- 워크플로우 예시
- Airflow 구조
Dagster
- Airflow와 같음
- local이던 cloud든 실행 가능
Prefect
- Airflow보다 최근에 만들어짐
- Airflow보다 사용하기 쉬움
- 오픈소스
'데이터 엔지니어링 > 데이터 플랫폼' 카테고리의 다른 글
[데이터플랫폼] 최신 데이터 인프라 이해하기 #5 - ETL/ELT 도구들 (Spark, Python, Hive) (0) | 2022.04.25 |
---|---|
[데이터플랫폼] 최신 데이터 인프라 이해하기 #3 - ETL/ELT 도구들 (Fivetran, Stitch, Matillion, Panoply) (0) | 2022.04.24 |
[데이터플랫폼] 최신 데이터 인프라 이해하기 #2 - 데이터 소스 (0) | 2022.04.24 |
[데이터플랫폼] 최신 데이터 인프라 이해하기 #1 - 기본 개념과 단어 설명 (0) | 2022.04.24 |
[데이터플랫폼] 데이터 파이프라인이란 (0) | 2022.04.24 |