하둡 에코시스템을 활용한 빅데이터 처리 라는 부제을 가지고 있는 이 책에서는 HDFS/HBASE 스키마 디자인, 데이터 파이프라인, 맵리듀스, 스파크, 피크, 크런치, 하이브, ETL, 스트리밍, 근접 실시간, 데이터 웨어하우스, 사례연구 등 데이터의 수집에서 분석까지의 빅데이터 아키텍처에 대해 설명하고 있어요.
출간
- 저자 : 마크 그로버, 테드 멀래스커, 조나단 사이드먼, 그웬 사피라
- 옮김 : 정동식, 홍다경, 우지현
- 출판사 : 비제이퍼블릭
- 출간일 : 2016.05.30
목차
- 1부. 하둡 애플리케이션의 아키텍처 고려사항
- 1장. 하둡 데이터 모델링
- 2장. 데이터 이동
- 3장. 하둡 데이터 프로세싱
- 4장. 하둡의 일반적인 프로세싱 패턴들
- 5장. 하둡 그래프 프로세싱
- 6장. 오케스트레이션
- 7장. 하둡을 활용한 근접 실시간 프로세싱
- 2부. 사례 연구
- 8장. 클릭스트림 분석
- 9장. 부정거래 탐지
- 10장. 데이터 웨어하우스
개인평
이 책에는 하둡을 기반으로 하는 빅데이터 플랫폼 아키텍처에 대해 설명하고 있어요. 아키텍처에 대한 책이다보니 각 어플리케이션의 설치 방법 등의 내용은 포함하고 있지 않아요.
데이터의 수집, 이동, 분석, 시각화까지 플랫폼을 구축하는데 있어서 하둡 에코 시스템내의 어플리케이션들이 어떤 것들이 있고, 어떻게 배치 할 것인가? 각각의 경우에 어떠한 어플리케이션을 선택해야 하는가? 등의 아키텍처에 대해 설명하고 있어요.
아쉬운 점이라면 2016년 출간 이후 하둡 에코 시스템은 계속 변화 하였고, 새로운 어플리케이션들이 다양하게 있는데, 이러한 부분은 담고 있지 않아요. 책을 통해서 아키텍처를 흐름을 이해하고, 구축하려는 플랫폼에 맞게 재구성할 필요가 있어요.
큰 주제를 다루다보니 뜬 구름 일 수도 있어 보이는 내용은 하둡 에코시스템에 대한 지식이 부족하고, 하둡 아키테처 설계에 대한 기초 지식을 쌓아야 하는 분에게 이 책을 추천합니다.