데이터 엔지니어링/데이터 플랫폼 7

[데이터플랫폼] 최신 데이터 인프라 이해하기 #5 - ETL/ELT 도구들 (Spark, Python, Hive)

https://www.youtube.com/watch?v=Wo6utoIC2Jw Spark platform / Python Libs / Batch Query Engine 묶음 Workflow Manager와 연결되어있음 Workflow Manager는 분할, 분석이 아닌 Task를 수행하는 엔진 Spark에게 task를 시킴 Python Libs Pandas 이름 유래 Panel Data 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터 tabular data를 다룸 row / column으로 이루어진 테이블 데이터 DataFrame이라 부름 Boto3 Python으로 Amazon Web service(S3, EC2)에 접근하게 해주는 라이브러리 Dask Python을 병렬로 처리할 수 있도록 만들..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect)

https://www.youtube.com/watch?v=IdVO1dC4bM8 Data Modeling 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음) dbt (Data Build Tool) Analytics engineering tools designed for analysts 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음 데이터 변환을 SQL로 모델링해볼 수 있음 Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음 LookML Looker BI 도구 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구 Workflow Manager Source에서 Data Warehouse/Data Lake로 옮기는 것을 w..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #3 - ETL/ELT 도구들 (Fivetran, Stitch, Matillion, Panoply)

https://www.youtube.com/watch?v=fn0sN3PFip0 Connectors Source의 데이터를 Data Warehouse나 Data Lake로 보내는 역할 Fivetran 다양한 데이터들을 수집할 때, Normalize하고 SQL 통해 Analysis Ready Schema로 변환 저장되는 데이터에 따라 과금 따라서, ETL에서는 어떻게 transform하는지도 중요했음 ETL에서 ELT로 넘어가는 이유 Storage가 싸지고, Computing 리소스가 비싸짐 Panoply (Fivetran 지원) ETL + Data Warehouse Stitch ETL 도구 Matillion 똑같음 ETL 도구 Matillion Data Loader 무료 도구 Extract / Load 하..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #2 - 데이터 소스

https://www.youtube.com/watch?v=0yK0z9B2Zk0 OLTP databases via CDC OLTP(Online Transaction Processing) Database 은행계좌 이체를 예로 많이 말함 보낸 계좌에서 돈이 빠져나감 + 받는 계좌에 돈이 들어옴 -> 두 가지가 모두 발생해야함 이 두 가지 작업을 묶어 처리해주는 Database를 의미 OLTP vs OLAP(Online Analytical Processing) OLTP 보통 수많은 트랜잭션이 발생 빠른 처리가 필요하기 때문에 정규화된 구조(수많은 테이블) OLAP 많은 데이터 정규화되지 않은 데이터 복잡한 분석 쿼리를 날림 CDC(Change Data Capture) OLTP에서 변경된 부분만 외부 DB로 저장..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #1 - 기본 개념과 단어 설명

https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=9 데이터 인프라의 목적 비즈니스 리더들의 의사결정 돕기 서비스/제품을 데이터 활용으로 향상시키기 데이터 인프라 기초 데이터 웨어하우스 데이터 웨어하우스가 필요한 이유 (Production Systems) Production Systems에서 각각 데이터에 대한 분석을 처리 Production Systems - 데이터가 생성되는 곳 - ERP / CRM / Database 데이터 웨어하우스란 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장 데이터의 차이 Production systems Normalized Schema 작은 테이블..

[데이터플랫폼] 데이터 파이프라인이란

1. 데이터 엔지니어링 개요파트 - 데이터 파이프라인이란 https://www.youtube.com/watch?v=HR3dpnJRk6M&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=1 데이터 파이프라인이란 데이터를 한 장소에서 다른 장소로 옮기는 것 API -> Database Database -> Database Database -> BI Tool 데이터 파이프라인이 필요한 이유 데이터 가공 - 데이터 소스로부터 데이터를 생성/저장 데이터 공유 - 영역/부서별 고립된 데이터를 통합 데이터 응용 - 데이터 분석이 필요한 비즈니스 모델에서 사용 데이터 저장 - 클라우드 환경으로 데이터 저장 데이터 파이프라인 예시 데이터 파이프라인 REST API에서 AWS Lambda..

[데이터플랫폼] 텔레메트리 조사

[공고] 넷마블 - 모니터링 서비스 백엔드 개발자 주요 업무 넷마블의 모든 서비스 모니터링 시스템 개발 자격 요건 Java (Spring Framework) 경험 대용량 서비스 기본 이해 IT 서비스 개발/운영 경험 공통화/모듈화/자동화 설계/구현 능력 컨테이너 기반 서비스 경험 우대 요건 React or Front-end Framework 경험 Prometheus, Grafana, Elasticsearch, OpenTelemetry 경험/이해 AWS, GCP 등 클라우드 환경 서비스 운영 경험 https://netmarble.engineering/monitoring-service-team-backed-developer/ [마감]모니터링서비스 백엔드 개발자 - 모니터링서비스팀 - 넷마블 기술 블로그 넷마..