도서 리뷰 : SQL로 시작하는 데이터 분석

nofence 2022. 12. 30. 23:39

4차산업혁명 시대에 있어 데이터는 '원유'로 불린다. 원유를 정제하여 사용 가능한 석유로 만들 듯이, 데이터 역시 적절하게 정제되고 변환되어야 하며 분석되어야 쓸모 있게 된다. 단순히 존재한다고 해서 가치 있는 게 아니라 올바르게 분석되었을 때 만이 데이터의 유용성이 빛을 발하게 된다. 그렇다, 데이터는 누군가에 의해 분석되었을 때 인사이트로 변모하게 된다. 

 

세간에 데이터를 둘러싼 다양한 분석 방법이 여럿 존재한다. 프로그래밍 레벨에서 R과 파이썬의 양대산맥이 명실상부한 데이터 분석 언어로 공고히 자리잡고 있는 실정이다. 그런데 R 또는 파이썬을 통해 데이터를 분석해 나가는 과정은 결코 쉽지 않다. 프로그래밍의 개념을 이해해야 하고, 학습하는데 드는 비용을 위시해서 프로그래밍을 둘러싼 부차적인 요소들까지 고려했을 때 이 모든 과정이 그리 호락호락하지만은 않다. 그럼에도 불구하고 이 모든 것을 상쇄할만한 가치는 충분히 있기 때문에 R과 파이썬은 데이터 분석에 대중적으로 널리 사용되고 있는 상태다. 

 

그런데, R과 파이썬의 출현 이전에 데이터베이스의 등장과 동시에 모습을 드러냈던 SQL은 현재까지 데이터 분석에 없어는 안 될 중요한 요소로 그 위용을 과감히 뽐내고 있는 상황이다. SQL은 여타의 프로그래밍 언어와 달리 상대적으로 러닝 커브가 크지 않기 때무에 일반인이 배우기에 허들이 높지 않은 편이다. DBMS마다 약간씩 지원하는 문법이 조금 상이하긴 하지만 표준 SQL이 존재하고, 해당 SQL을 통해 DBMS의 종류에 상관 없이 일관적으로 원하는 결과를 얻을 수 있는 것도 장점으로 기능한다. 

 

각설하고 오늘 소개하는 이 책은 SQL을 활용해 데이터 분석의 여정으로 안내하는 서적이다. SQL의 여러 문법 중 조회(검색)에 특화되어 있어 SELECT 문을 통한 데이터 분석의 대부분을 다루고 있다. 

 

책의 초반부에서는 데이터 분석의 의의와 SQL 사용의 이유 등에 대해 원론적인 수준에서 다루며 데이터 준비를 위한 제반 사항에 대해 언급하고 있다. 데이터를 준비함에 있어 어떤 데이터 타입이 존재하고 SQL 쿼리 구조가 어떻게 형성되어 있는지, 그리고 프로파일링의 의미와 데이터 정제 및 데이터 셰이핑은 무엇인지에 대해 학습하게 된다. 이를 통해 데이터 분석 사전에 수행되는 데이터 준비의 중요성에 대해 알 수 있으며, 단순히 데이터를 무작정 분석하는 게 아니라 치밀하고 세부적인 계획과 전략을 통해 분석 작업이 수행됨을 배울 수 있게 된다. 

 

이후의 챕터에서는 시계열 분석, 코호트 분석, 텍스트 분석, 이상 탐지, 실험 분석 등 다양한 분석 방법을 실제 사례를 기반으로 하여 정밀하게 다루고 있다. 각각의 사례마다 왜 해당 방법을 적용해야 하는지에 대한 설명은 기본이고, 분석을 통해 도출되는 결론을 통해 무엇을 얻을 수 있고 어떻게 활용되는지에 대해 학습하게 된다. 분석이 현황에 대한 사실 확인 및 검증으로 그치는 게 아니라, 분석을 통해 획득한 결과를 바탕으로 현실 세계에 유용한 도구로 활용되는 과정을 몸소 체험할 수 있다는 게 무엇보다 가장 크게 와닿았다. 

 

데이터 분석의 과정은 지난하다. 데이터를 구하는 것도 쉽지 않지만, 데이터를 정제하고 그것을 분석하고 결론을 도출하여 인사이트로 빚어내는 일련의 과정이 매 순간 고도의 집중력을 요하기 때문이다. 그렇지만 데이터 분석을 반드시 전문가만 할 수 있는 것도 아니다. R이나 파이썬과 같은 프로그래밍 언어를 다룰 수 있는 능력을 갖추고 있어야만 할 수 있는 것도 아니다. 우리에겐 SQL이라는 강력한 무기가 존재한다. SQL의 기본을 익히고 동작 흐름을 이해할 수 있다면 우리같은 평번한 사람도 데이터 분석을 할 수 있다. 지레 겁먹지 말고 SQL과 함께 데이터 분석의 여정을 시작해 보면 어떨까? 이 책이 그 여정에 도움이 되는 도구이며 당신의 든든한 지원군이 되어 주리라 생각한다. 

 

P.S 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.