인프라 6

[데이터플랫폼] 최신 데이터 인프라 이해하기 #5 - ETL/ELT 도구들 (Spark, Python, Hive)

https://www.youtube.com/watch?v=Wo6utoIC2Jw Spark platform / Python Libs / Batch Query Engine 묶음 Workflow Manager와 연결되어있음 Workflow Manager는 분할, 분석이 아닌 Task를 수행하는 엔진 Spark에게 task를 시킴 Python Libs Pandas 이름 유래 Panel Data 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터 tabular data를 다룸 row / column으로 이루어진 테이블 데이터 DataFrame이라 부름 Boto3 Python으로 Amazon Web service(S3, EC2)에 접근하게 해주는 라이브러리 Dask Python을 병렬로 처리할 수 있도록 만들..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect)

https://www.youtube.com/watch?v=IdVO1dC4bM8 Data Modeling 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음) dbt (Data Build Tool) Analytics engineering tools designed for analysts 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음 데이터 변환을 SQL로 모델링해볼 수 있음 Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음 LookML Looker BI 도구 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구 Workflow Manager Source에서 Data Warehouse/Data Lake로 옮기는 것을 w..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #3 - ETL/ELT 도구들 (Fivetran, Stitch, Matillion, Panoply)

https://www.youtube.com/watch?v=fn0sN3PFip0 Connectors Source의 데이터를 Data Warehouse나 Data Lake로 보내는 역할 Fivetran 다양한 데이터들을 수집할 때, Normalize하고 SQL 통해 Analysis Ready Schema로 변환 저장되는 데이터에 따라 과금 따라서, ETL에서는 어떻게 transform하는지도 중요했음 ETL에서 ELT로 넘어가는 이유 Storage가 싸지고, Computing 리소스가 비싸짐 Panoply (Fivetran 지원) ETL + Data Warehouse Stitch ETL 도구 Matillion 똑같음 ETL 도구 Matillion Data Loader 무료 도구 Extract / Load 하..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #2 - 데이터 소스

https://www.youtube.com/watch?v=0yK0z9B2Zk0 OLTP databases via CDC OLTP(Online Transaction Processing) Database 은행계좌 이체를 예로 많이 말함 보낸 계좌에서 돈이 빠져나감 + 받는 계좌에 돈이 들어옴 -> 두 가지가 모두 발생해야함 이 두 가지 작업을 묶어 처리해주는 Database를 의미 OLTP vs OLAP(Online Analytical Processing) OLTP 보통 수많은 트랜잭션이 발생 빠른 처리가 필요하기 때문에 정규화된 구조(수많은 테이블) OLAP 많은 데이터 정규화되지 않은 데이터 복잡한 분석 쿼리를 날림 CDC(Change Data Capture) OLTP에서 변경된 부분만 외부 DB로 저장..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #1 - 기본 개념과 단어 설명

https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=9 데이터 인프라의 목적 비즈니스 리더들의 의사결정 돕기 서비스/제품을 데이터 활용으로 향상시키기 데이터 인프라 기초 데이터 웨어하우스 데이터 웨어하우스가 필요한 이유 (Production Systems) Production Systems에서 각각 데이터에 대한 분석을 처리 Production Systems - 데이터가 생성되는 곳 - ERP / CRM / Database 데이터 웨어하우스란 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장 데이터의 차이 Production systems Normalized Schema 작은 테이블..

[클라우드] 클라우드 인프라

개요 하드웨어, 추상화된 리소스, 스토리지 및 네트워크 리소스를 포함하는 클라우드 컴퓨팅에 필요한 구성 요소 클라우드에서 서비스와 애플리케이션을 호스트하기 위해 필요 동작 방식 가상화와 같은 추상화 기술로 물리적 하드웨어에서 리소스를 분리하여 클라우드로 풀링 자동화 소프트웨어와 관리 툴이 리소스를 할당하고 새로운 환경을 프로비저닝 -> 가상화로 리소스를 나누고 관리 툴이 리소스를 할당 구성요소 하드웨어 클라우드 네트워크는 여러 지리적 위치에 있을 수 있는 다양한 물리적 하드웨어로 이루어져있음 스위치, 라우터, 방화벽, 로드 밸런서, 스토리지 어레이, 백업 장치, 서버 등의 네트워킹 장비 포함 가상화로 여러 서버를 연결하여 리소스를 나누고 추상화하여 사용자가 사용 가상화 하드웨어에서 IT 서비스 및 기능을..