https://www.youtube.com/watch?v=Wo6utoIC2Jw Spark platform / Python Libs / Batch Query Engine 묶음 Workflow Manager와 연결되어있음 Workflow Manager는 분할, 분석이 아닌 Task를 수행하는 엔진 Spark에게 task를 시킴 Python Libs Pandas 이름 유래 Panel Data 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터 tabular data를 다룸 row / column으로 이루어진 테이블 데이터 DataFrame이라 부름 Boto3 Python으로 Amazon Web service(S3, EC2)에 접근하게 해주는 라이브러리 Dask Python을 병렬로 처리할 수 있도록 만들..