데이터란
- 데이터
- 의사결정에 사용되는 사실(fact)의 집합
- 설명 (description)
- 관찰 (observation)
- 숫자 (numbers)
- 데이터 분류
- 정형
- 미리 정의된(pre-defined) format으로 저장
- 매우 구체적인 구조 - 비정형
- native format으로 저장
- 매우 다양한 형태 - 반정형
- relational database 모델이나 table 형태를 사용하지 않는 방식
- 정형
- 의사결정에 사용되는 사실(fact)의 집합
정형 데이터 (Structured Data)
- 보통 테이블 데이터(tablular data)를 말함
- 데이터베이스에서 row와 column으로 표현 - 관계형 데이터베이스
- 이런 테이블 형태로 데이터를 저장하는 데이터베이스 - 수학 용어로 "관계(relation)"는 table 형태의 데이터를 말함
- 정형 데이터에서 모든 row는 같은 column으로 구성
- SQL이 사용됨
반정형 데이터 (Semi-structured Data)
- 반정형 데이터
- 정형 데이터(relational database)로 이루어지지 않았지만, 어떤 형태를 갖추고 있는 데이터 - 반정형 데이터의 종류
- JSON(JavaScript Object Notation) format
- key-value store
- graph database
비정형 데이터 (Unstructured Data)
- 비정형 데이터
- pre-defined 데이터 모델이 없거나, pre-defined 방식으로 구성하지 않는 정보 - 비정형 데이터 종류
- Videos
- Audio
- Binary
정형 데이터 / 비정형 데이터 특징 (Relational & Non-relational)
Relational
- tabular data는 처음에 쉽게 사용할 수 있으나, 유연하지 못한 구조가 문제를 일으킬 수 있음
- SQL 사용
- SQL을 사용하면 초보자도 쉽게 사용할 수 있는 구조로, 몇 줄의 코드로 table join이 가능
- Relational Database 예시
- MySQL
- PostgreSQL
- Db2
Non-Relational Data
- Non-relational 데이터베이스
- tabular schema를 사용하지 않는 데이터베이스
- 기존 구조(original structure)에 더 가까운 format으로 데이터 저장 가능
- [?]저장되는 데이터 유형의 특정 요구사항에 맞게 개선된 스토리지 모델 사용
- 저장 데이터 유형
- JSON document
- key-value pair - Graph
- vertices & edge
- JSON document
- Non-relational 데이터베이스 예시
- Redis
- JanusGraph
- MongoDB
- RabbitMQ
- 1. Document Data Store
- 객체들의 집합을 데이터 value로 다룸
- document라 부르는 이 객체에서 명명된 string field를 다룸
- 2. Columnar Data Store
- row와 column으로 데이터를 형성
- column은 column family라는 group으로 나뉨
- column family
- column들의 집합으로 구성
- 각 column은 논리적으로 연관됨
- 각 column은 검색/조작의 단위
- row는 매우 적으며(sparse) 새로운 column을 동적으로 추가 가능
- 3. Key/Value Store
- 4. Graph Data Store
- 5. Time Series Data Store
- 6. Object Data Store
- 7. External Index Data Store
정형 데이터 vs 비정형 데이터
- Defined vs Undefined
- 정형은 table과 같이 정의된 데이터로 저장
- 비정형은 다양한 유형의 데이터로 그대로 저장
- Quantitiative vs Qualitative (양적 vs 질적)
- 정형은 양적 데이터
- 숫자 또는 셀 수 있는 것 - 정형 데이터의 분석
- classification
- regression
- clustering - 비정형 데이터는 질적 데이터
- 기존 툴과 방법으로 처리/분석할 수 없음 - 비정형 데이터의 분석
- data stacking
- data mining
- 정형은 양적 데이터
- Data Lake vs Data House
- 정형 데이터 저장
- Data warehouse - 비정형 데이터 저장
- Data Lake - 필요 용량 크기
- 정형 < 비정형
- 정형 데이터 저장
'데이터 엔지니어링 > 데이터 분석' 카테고리의 다른 글
[데이터분석] 협업 필터링 (Collaborative Filtering) (0) | 2022.05.29 |
---|