데이터 11

[데이터분석] 정형, 비정형, 반정형 데이터

데이터란 데이터 의사결정에 사용되는 사실(fact)의 집합 설명 (description) 관찰 (observation) 숫자 (numbers) 데이터 분류 정형 - 미리 정의된(pre-defined) format으로 저장 - 매우 구체적인 구조 비정형 - native format으로 저장 - 매우 다양한 형태 반정형 - relational database 모델이나 table 형태를 사용하지 않는 방식 정형 데이터 (Structured Data) 보통 테이블 데이터(tablular data)를 말함 - 데이터베이스에서 row와 column으로 표현 관계형 데이터베이스 - 이런 테이블 형태로 데이터를 저장하는 데이터베이스 수학 용어로 "관계(relation)"는 table 형태의 데이터를 말함 정형 데이터에..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #5 - ETL/ELT 도구들 (Spark, Python, Hive)

https://www.youtube.com/watch?v=Wo6utoIC2Jw Spark platform / Python Libs / Batch Query Engine 묶음 Workflow Manager와 연결되어있음 Workflow Manager는 분할, 분석이 아닌 Task를 수행하는 엔진 Spark에게 task를 시킴 Python Libs Pandas 이름 유래 Panel Data 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터 tabular data를 다룸 row / column으로 이루어진 테이블 데이터 DataFrame이라 부름 Boto3 Python으로 Amazon Web service(S3, EC2)에 접근하게 해주는 라이브러리 Dask Python을 병렬로 처리할 수 있도록 만들..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #4 - ETL/ELT 도구들 (dbt, Airflow, Dagster, Prefect)

https://www.youtube.com/watch?v=IdVO1dC4bM8 Data Modeling 데이터가 Data Warehouse/Data Lake에서 옴(Source에서 오지 않음) dbt (Data Build Tool) Analytics engineering tools designed for analysts 데이터 분석가들이 데이터 분석을 위해 직접 데이터를 조작해볼 수 있음 데이터 변환을 SQL로 모델링해볼 수 있음 Snaptshot을 떴기 때문에 Production System에 영향을 주지 않음 LookML Looker BI 도구 데이터 분석가들이 대쉬보드나 리포트를 만드는 도구 Workflow Manager Source에서 Data Warehouse/Data Lake로 옮기는 것을 w..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #3 - ETL/ELT 도구들 (Fivetran, Stitch, Matillion, Panoply)

https://www.youtube.com/watch?v=fn0sN3PFip0 Connectors Source의 데이터를 Data Warehouse나 Data Lake로 보내는 역할 Fivetran 다양한 데이터들을 수집할 때, Normalize하고 SQL 통해 Analysis Ready Schema로 변환 저장되는 데이터에 따라 과금 따라서, ETL에서는 어떻게 transform하는지도 중요했음 ETL에서 ELT로 넘어가는 이유 Storage가 싸지고, Computing 리소스가 비싸짐 Panoply (Fivetran 지원) ETL + Data Warehouse Stitch ETL 도구 Matillion 똑같음 ETL 도구 Matillion Data Loader 무료 도구 Extract / Load 하..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #2 - 데이터 소스

https://www.youtube.com/watch?v=0yK0z9B2Zk0 OLTP databases via CDC OLTP(Online Transaction Processing) Database 은행계좌 이체를 예로 많이 말함 보낸 계좌에서 돈이 빠져나감 + 받는 계좌에 돈이 들어옴 -> 두 가지가 모두 발생해야함 이 두 가지 작업을 묶어 처리해주는 Database를 의미 OLTP vs OLAP(Online Analytical Processing) OLTP 보통 수많은 트랜잭션이 발생 빠른 처리가 필요하기 때문에 정규화된 구조(수많은 테이블) OLAP 많은 데이터 정규화되지 않은 데이터 복잡한 분석 쿼리를 날림 CDC(Change Data Capture) OLTP에서 변경된 부분만 외부 DB로 저장..

[데이터플랫폼] 최신 데이터 인프라 이해하기 #1 - 기본 개념과 단어 설명

https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=9 데이터 인프라의 목적 비즈니스 리더들의 의사결정 돕기 서비스/제품을 데이터 활용으로 향상시키기 데이터 인프라 기초 데이터 웨어하우스 데이터 웨어하우스가 필요한 이유 (Production Systems) Production Systems에서 각각 데이터에 대한 분석을 처리 Production Systems - 데이터가 생성되는 곳 - ERP / CRM / Database 데이터 웨어하우스란 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장 데이터의 차이 Production systems Normalized Schema 작은 테이블..

[데이터플랫폼] 데이터 파이프라인이란

1. 데이터 엔지니어링 개요파트 - 데이터 파이프라인이란 https://www.youtube.com/watch?v=HR3dpnJRk6M&list=PLbd9zR_lqq9exGduT3rsOsGWZZwwzaqrb&index=1 데이터 파이프라인이란 데이터를 한 장소에서 다른 장소로 옮기는 것 API -> Database Database -> Database Database -> BI Tool 데이터 파이프라인이 필요한 이유 데이터 가공 - 데이터 소스로부터 데이터를 생성/저장 데이터 공유 - 영역/부서별 고립된 데이터를 통합 데이터 응용 - 데이터 분석이 필요한 비즈니스 모델에서 사용 데이터 저장 - 클라우드 환경으로 데이터 저장 데이터 파이프라인 예시 데이터 파이프라인 REST API에서 AWS Lambda..

[MySQL] 데이터 복원

1. 상황 MySQL에서 mysqldump를 복원하던 중 Access Denied가 발생하였습니다. 2. 해결 복원 명령은 다음과 같습니다. >> mysql -u[id] -p [database] < [dump] 위 명령 입력시 -u[id]가 붙어있다는 점과 대소문자를 구분한다는 점에서 발생한 에러였습니다. MySQL은 table과 db에 접근할 때도 대소문자 구분에 주의가 필요합니다. https://m.blog.naver.com/rhrkdfus/221535739080 [Database] Windows에서 MySQL DB 백업하기 * 목차 1. 백업할 데이터베이스 확인하기 2. cmd 창에서 MySQL 경로로 이동 3. Database 백업하기 4. ... blog.naver.com https://zeta..

CS/MySQL 2022.04.04

[Spring] CrudRepository findById가 안될 때

현상 CrudRepository의 메서드를 사용할 때 데이터를 불러오지 못하는 상황이 발생했습니다. 원인을 찾기 위해 확인해본 내용은 아래와 같습니다. DB에 데이터가 제대로 들어갔는지? - Mysql Workbench를 통해 table 데이터 확인 DAO의 String과 DB table의 varchar가 호환이 되는지? - 호환 가능 findById의 arg가 정상인지? - 코드와 같은 SQL 사용시 데이터 조회 가능 해결 Hibernate 로그를 살펴보니, SQL문의 table 이름에 문제가 있다는 것을 확인했습니다. DB의 table 이름이 TistoryInfo인데, 로그에 따르면 tistory_info라는 table에서 데이터를 찾고 있었습니다. 이러한 문제는 아래 글에서 Camel 방식이 und..

[쉽게 배우는 데이터 통신과 컴퓨터 네트워크](요약)[Chapter-5] MAC 계층

이 글은 "쉽게 배우는 데이터 통신과 컴퓨터 네트워크 (박기현 지음)"을 읽고 주관적으로 요약한 글입니다. ※ 요약 MAC 계층 WAN 환경과 달리 LAN 환경에서는 데이터링크 계층의 기능을 나누어 처리 LLC 계층 (Logical Link Control) OSI 7계층 모델에서 정의한 데이터링크 계층의 기본 기능 MAC 계층 (Medium Access Control) 물리적인 전송 선로의 특징과 매체간의 연결 방식에 따른 제어 부분 물리적인 특성을 반영하므로 LAN 종류에 따라 특성이 구분됨 LAN 환경에 따라 종류가 다양하며, 대표적으로 공유 버스 방식의 이더넷과 링 구조 방식의 토큰 링이 대표적 IEEE 802 시리즈 국제 표준화 단체인 IEEE에서 데이터링크 계층과 관련된 다양한 LAN 표준안 연..

책읽기 2021.08.17