데이터 분석을 위한 SQL 레시피 2

[데이터 분석을 위한 SQL 레시피][2장] 이 책에서 다루는 도구와 데이터

이 글은 "데이터분석을 위한 SQL 레시피 (가사키 나가토, 다미야 나오토 지음)"을 읽고 주관적으로 작성된 글입니다. 1. 시스템 1) PostgreSQL 오픈소스 RDB MySQL등 다른 오픈소스 RDB에 비해 표준 SQL을 잘 준수하고 있음 윈도 함수, CTE(WITH 구문) 등 분석에 필수적으로 사용하는 구문을 모두 구현 특유의 확장 기능을 많이 제공하여 편리함 소규모 데이터 분석 / SQL 학습 목적으로 사용 2) Apache Hive 대용량 데이터에 대한 RDBMS의 한계(bottle neck) 빅데이터 시스템에서는 일반적으로 저렴한 디스크를 사용 따라서, 디스크의 데이터 I/O 속도와 CPU의 처리 속도의 gap이 큼 이를 위한 아키텍처로 분산 파일 시스템이 고안됨 Apache Hive HD..

책읽기 2021.07.18

[데이터 분석을 위한 SQL 레시피][1장] 빅데이터 시대에 요구되는 분석력이란?

이 글은 "데이터분석을 위한 SQL 레시피 (가사키 나가토, 다미야 나오토 지음)"을 읽고 주관적으로 작성된 글입니다. 1. 데이터를 둘러싼 환경의 변화 1) 접근 분석 도구의 등장 기존 데이터 키워드 2010년도까지는 접근 분석 도구가 데이터 분석의 주역 접근 분석 도구로 하던 일 - 웹사이트에 기록된 접근 로그 파일 분석 페이지 뷰의 추이를 집계 기록되어 있는 시간 URL 확인 구글 애널리틱스(Google Analytics) 접근 분석 도구 중 구글 애널리틱스가 영향력이 컸음 HTML에 태그에 사용자 추적 전용 스크립트를 넣어 데이터 축적/분석이 데이터를 다루는 일이었음 사용자 행동의 부상 구글 애널리틱스는 유입 키워드, 이탈률, 직귀율 같은 당시 파악하기 힘들던 지표까지 제공했음 이로써 사용자 행동..

책읽기 2021.07.15