도서 리뷰 : 스파크를 활용한 실시간 처리

nofence 2021. 5. 23. 23:54

데이터는 어디에선가 끊임 없이 생성되고 또 수집되고 있으며 가공되어 분석이 되고 있다. 기업은 그 가공된 데이터를 통해 비즈니스 모델을 만들고 수익을 창출한다. 그렇다, 우리는 데이터가 디지털 시대의 '원유'로 불리고 있는 시대에 살고 있다. 

 

도처에서 생성 되는 데이터의 양이 날마다 기하급수적으로 늘어가고 있는, 그야말로 '데이터의 홍수' 속에서 가치를 발굴하기란 그리 쉬운 작업이 아니다. 그래서 데이터에 대한 기술들, 예컨대 빅데이터를 위시하여 데이터 엔지니어링과 관련 된 것들이 고안 되었고, 빅데이터의 기술의 사실상 표준(De Facto)이라고 할 수 있는 하둡 에코 시스템은 진화에 진화를 거듭하며 다양한 컴포넌트들을 흡수하고 계속해서 발전을 해오고 있다.

 

스파크는 하둡 에코 시스템의 수 많은 컴포넌트 중의 하나로서 실시간 데이터 처리, 이른바 스트리밍 처리에 있어서 훌륭한 프레임워크로 자리 잡았고, 다양한 기업과 조직이 채택해서 사용하고 있는 기술로서의 위상을 공고히 해오고 있다. 오늘은 Apache  Spark와 관련 된 도서에 대한 리뷰를 해보려고 한다. 

 

이 책은 스트림 처리에 대한 소개로 시작해서 스트림 처리 모델의 구조와 핵심에 대해 다루고 스트리밍 아키텍처에 대한 설명으로 이야기를 풀어 나간다. 또한 스트림 처리를 위한 엔진으로서 스파크의 특징에 대해 상세히 언급하고 있으며 분산 처리 모델로서 스파크가 어떻게 구성 되는지 그리고 복원력과 내결함성을 어떤 식으로 보장하는지에 대한 내용을 깊이 있게 제공하고 있다. 

또한 책의 후반부에서는 스파크의 주요한 특징 중 하나인 구조적 스트리밍을 본격적으로 다루고 있는데, 구조적 스트리밍에 대한 디테일한 내용이 심층적으로 언급 되고 있고 이후에 스파크 스트리밍에 대해 세부적인 주요 내용을 깊이 있게 풀어 나간다. 본 도서의 거의 핵심이라 일컬을 수 있는 구조적 스트리밍과 스파크 스트리밍의 다양한 특징을 맛보게 되고 나서 고급 스파크 스트리밍 기술에 대해 일부 다루는 내용을 접할 수 있게 된다. 

 

이 책은 스파크의 기본에 대해 어느 정도 알고 스파크를 접해 본 경험자들이 구조적 스트리밍과 스파크 스트리밍에 대해 학습할 수 있는 가이드를 제시하고 있기 때문에 초심자들이 책의 내용을 온전히 이해하기는 굉장히 힘들 수 밖에 없다 -.-; 또한 예제 코드가 대부분 스칼라로 작성 되었기 때문에 프로그래밍 언어를 접해 보지 못 한 이들에게는 이해하기 힘든 지점이 될 수도 있겠다. 또한 아쉬운 점은 책의 번역이 많이 매끄럽지 못한 탓일까, 책이 쉽게 읽히지 않았다는 것이다. 그럼에도 불구하고 스파크의 스트림 처리에 대한 기술 서적이 전무한 상황에 이 책은 가뭄에 단비와 같은 서적이 아닐 수가 없겠다. 

 

 

P.S : 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

반응형