데이터 엔지니어링/데이터 분석

[데이터분석] 정형, 비정형, 반정형 데이터

pythaac 2022. 5. 23. 14:25

데이터란

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 데이터
    • 의사결정에 사용되는 사실(fact)의 집합
      • 설명 (description)
      • 관찰 (observation)
      • 숫자 (numbers)
    • 데이터 분류
      • 정형
        - 미리 정의된(pre-defined) format으로 저장
        - 매우 구체적인 구조
      • 비정형
        - native format으로 저장
        - 매우 다양한 형태
      • 반정형
        - relational database 모델이나 table 형태를 사용하지 않는 방식

 

정형 데이터 (Structured Data)

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 보통 테이블 데이터(tablular data)를 말함
    - 데이터베이스에서 row와 column으로 표현
  • 관계형 데이터베이스
    - 이런 테이블 형태로 데이터를 저장하는 데이터베이스
  • 수학 용어로 "관계(relation)"는 table 형태의 데이터를 말함
  • 정형 데이터에서 모든 row는 같은 column으로 구성
  • SQL이 사용됨

 

반정형 데이터 (Semi-structured Data)

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 반정형 데이터
    - 정형 데이터(relational database)로 이루어지지 않았지만, 어떤 형태를 갖추고 있는 데이터
  • 반정형 데이터의 종류
    • JSON(JavaScript Object Notation) format
    • key-value store
    • graph database

 

비정형 데이터 (Unstructured Data)

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 비정형 데이터
    - pre-defined 데이터 모델이 없거나, pre-defined 방식으로 구성하지 않는 정보
  • 비정형 데이터 종류
    • Videos
    • Audio
    • Binary

 

정형 데이터 / 비정형 데이터 특징 (Relational & Non-relational)

Relational

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • tabular data는 처음에 쉽게 사용할 수 있으나, 유연하지 못한 구조가 문제를 일으킬 수 있음
  • SQL 사용
    • SQL을 사용하면 초보자도 쉽게 사용할 수 있는 구조로, 몇 줄의 코드로 table join이 가능
  • Relational Database 예시
    • MySQL
    • PostgreSQL
    • Db2

 

Non-Relational Data

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • Non-relational 데이터베이스
    • tabular schema를 사용하지 않는 데이터베이스
    • 기존 구조(original structure)에 더 가까운 format으로 데이터 저장 가능
    • [?]저장되는 데이터 유형의 특정 요구사항에 맞게 개선된 스토리지 모델 사용
  • 저장 데이터 유형
    • JSON document
      - key-value pair
    • Graph
      - vertices & edge
  • Non-relational 데이터베이스 예시
    • Redis
    • JanusGraph
    • MongoDB
    • RabbitMQ
  • 1. Document Data Store
    • 객체들의 집합을 데이터 value로 다룸
    • document라 부르는 이 객체에서 명명된 string field를 다룸

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 2. Columnar Data Store
    • row와 column으로 데이터를 형성
    • column은 column family라는 group으로 나뉨
    • column family
      • column들의 집합으로 구성
      • 각 column은 논리적으로 연관됨
      • 각 column은 검색/조작의 단위
      • row는 매우 적으며(sparse) 새로운 column을 동적으로 추가 가능

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

  • 3. Key/Value Store
  • 4. Graph Data Store
  • 5. Time Series Data Store
  • 6. Object Data Store
  • 7. External Index Data Store

 

정형 데이터 vs 비정형 데이터

  • Defined vs Undefined
    • 정형은 table과 같이 정의된 데이터로 저장
    • 비정형은 다양한 유형의 데이터로 그대로 저장
  • Quantitiative vs Qualitative (양적 vs 질적)
    • 정형은 양적 데이터
      - 숫자 또는 셀 수 있는 것
    • 정형 데이터의 분석
      - classification 
      - regression
      - clustering
    • 비정형 데이터는 질적 데이터
      - 기존 툴과 방법으로 처리/분석할 수 없음
    • 비정형 데이터의 분석
      - data stacking
      - data mining
  • Data Lake vs Data House
    • 정형 데이터 저장
      - Data warehouse
    • 비정형 데이터 저장
      - Data Lake
    • 필요 용량 크기
      - 정형 < 비정형

 

 

 

 

https://k21academy.com/microsoft-azure/dp-900/structured-data-vs-unstructured-data-vs-semi-structured-data/

 

Structured Vs Unstructured Data | Semi Structured [Updated -2022]

 

k21academy.com