데이터 엔지니어링/데이터 플랫폼

[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect)

pythaac 2022. 4. 24. 23:01

https://www.youtube.com/watch?v=IdVO1dC4bM8 

Data Modeling

  • 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음)

 

dbt (Data Build Tool)

  • Analytics engineering tools designed for analysts
  • 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음
  • 데이터 변환을 SQL로 모델링해볼 수 있음
    • Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음

 

LookML

  • Looker
    • BI 도구
    • 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구

 

Workflow Manager

  • Source에서 Data Warehouse/Data Lake로 옮기는 것을 workflow 단위로 관리

 

Airflow

  • 비슷한 역할
    • Apache Oozie - Workflow Scheduler for Hadoop
    • Luigi
  • 기능
    • task scheduling
      - 언제 어떤 테스크를 수행할지
    • distributed execution
      - 분산 실행
    • dependency management
      - 위상정렬
  • 워크플로우 예시

  • Airflow 구조

Dagster

  • Airflow와 같음
  • local이던 cloud든 실행 가능

 

Prefect

  • Airflow보다 최근에 만들어짐
  • Airflow보다 사용하기 쉬움
  • 오픈소스