데이터 엔지니어링/데이터 분석 2

[데이터분석] 협업 필터링 (Collaborative Filtering)

추천 알고리즘 종류 협업 필터링 (Collaborative Filtering) Memory-based Approach - User-based Filtering - Item-based Filtering Model-based Approach - Matrix Factorization 콘텐츠 기반 필터링 (Contents-based Filtering) 정의 유저-아이템 간 상호작용 데이터를 활용하는 방법 - ex) 이 영화를 좋아하는 다른 사람이 좋아하는 영화 콘텐츠 기반 필터링과 비교 - 정의 : 콘텐츠 특성을 기반으로 추천하는 방법 - ex) 내가 좋아하는 감동, 장르 등을 활용 특징 장점 일반적으로 Content-based보다 성능이 좋음 도메인에 의존되지 않음 쉽게(학습없이, 산술연산으로) 만들 수 있음..

[데이터분석] 정형, 비정형, 반정형 데이터

데이터란 데이터 의사결정에 사용되는 사실(fact)의 집합 설명 (description) 관찰 (observation) 숫자 (numbers) 데이터 분류 정형 - 미리 정의된(pre-defined) format으로 저장 - 매우 구체적인 구조 비정형 - native format으로 저장 - 매우 다양한 형태 반정형 - relational database 모델이나 table 형태를 사용하지 않는 방식 정형 데이터 (Structured Data) 보통 테이블 데이터(tablular data)를 말함 - 데이터베이스에서 row와 column으로 표현 관계형 데이터베이스 - 이런 테이블 형태로 데이터를 저장하는 데이터베이스 수학 용어로 "관계(relation)"는 table 형태의 데이터를 말함 정형 데이터에..