데이터 엔지니어링/데이터 플랫폼

[데이터플랫폼] 최신 데이터 인프라 이해하기 #1 - 기본 개념과 단어 설명

pythaac 2022. 4. 24. 20:25

https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=9 

 

데이터 인프라의 목적

  • 비즈니스 리더들의 의사결정 돕기
  • 서비스/제품을 데이터 활용으로 향상시키기

 

데이터 인프라 기초

  • 데이터 웨어하우스
    • 데이터 웨어하우스가 필요한 이유 (Production Systems)
      • Production Systems에서 각각 데이터에 대한 분석을 처리
      • Production Systems
        - 데이터가 생성되는 곳
        - ERP / CRM / Database
    • 데이터 웨어하우스란
      • 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장
    • 데이터의 차이
      • Production systems
        • Normalized Schema
        • 작은 테이블로 데이터를 쪼갬
      • Data Warehouse
        • Demensional Schema
        • 더 작고 간단한 구조의 테이블 사용 (Star Schema)
      • 다른 이유
        • Data Warehouse는 데이터 분석이 목적
        • 쉽게 데이터를 추출하는 것이 더 중요
  • 데이터 옮기기 (ETL)
    • 추출(Extract) -> 변환(Transform) -> 적재(Load)
    • 추출
      - 데이터를 Production System에서 추출
    • 변환
      - normalized schema에서 dimensional schema로 변환
    • 적재
      - Data warehouse에 저장
    • 문제점
      - 추출과 변환이 자동화될 수 없음
      - 변환이 회사마다 다름 -> 자동화와 수정이 어려움
      - ELT
  • 데이터 옮기기 (ELT)
    • 추출 -> 적재 -> 변환

 

  • [참고] 그림
    • 그림 출처
    • 위 그림은 2020년도에 작성된 내용
    • 현재 그림은 아래와 같이 변경됨 (OLTP, log analysis, and SaaS analytics apps이 제외됨)

 

  • Source
    - 데이터가 생성되는 곳
    - Production Systems
  • Ingestion and Transfromation
    - 가져오고 변환
  • Storage
    - Data Warehouse
    - Data Lake
  • Historiacl
    - 과거 데이터를 분석
  • Predictive
    - 미래를 예측
  • Output
    - 결과를 보여줌