도서 리뷰 : 자바 마이크로서비스를 활용한 SRE

nofence 2022. 3. 27. 23:43

SRE의 본원지는 구글이지만, 넷플릭스에서 그들의 독창적인 조직 문화와 추구하는 지향점을 녹여낸 독특한 SRE 활용법을 다룬 도서가 세상에 빛을 보게 되었다. '자바 마이크로서비스를 활용한 SRE'라는 책이 바로 오늘의 주인공이다. 넷플릭스는 AWS로 모든 인프라를 마이그레이션 하고 나서 혹독한 대가를 치르는 과정을 거쳤다. 그것도 클라우드 플랫폼에 인프라를 그냥 이전한 것이 아니라 MSA 구조로 근본적인 변화를 가하고 쇄신을 꾀하는 절차가 포함되었다. 그러나, 클라우드 환경에 모든 자원이 이관되었다고 해서 예상한대로 애플리케이션이 동작한다고 생각하면 큰 오산이다. 예기치 못한 숱한 변수와 난관이 도처에 도사리고 있으니, 클라우드 세계에 존재하는 애플리케이션은 잘 운영되면 천국을 맞이하지만 그렇지 못한 경우에는 지옥을 맛보게 되는 극한 상황에 내몰릴 수 밖에 없는 숙명을 갖게된다. 

 

이러한 현실 속에서 넷플릭스는 애플리케이션의 강건함을 보장하는 다양한 방법을 모색했고, 이른바 '카오스 엔지니어링' 기법을 활용하여 인프라의 가용성과 신뢰성을 보증하기 위한 패러다임의 변화를 주도했다. 거기에 더하여 넷플릭스 조직의 독특한 문화에 기반한 SRE를 활용하여 다양한 장애를 사전에 대비하고 여럿 이슈에 대응하며 트러블슈팅할 수 있는 시스템을 갖추게 되었다. 

 

이 책에서 꽤 많은 분량으로 다뤄진 주제는 바로 '애플리케이션 메트릭'이다. 애플리케이션의 상태를 다양한 각도와 여러 관점에서 바라보며 애플리케이션이 장애를 맞이하거나 이슈를 토해내는 지점을 명확하게 파악할 수 있는 노하우를 자연스레 터득하게 된다. 자바 애플리케이션을 기반으로 하기 때문에 자바 소스 코드를 이해할 수 있는 기본적인 역량이 필요하지만, 수많은 예시와 실질적인 지침들은 독자들에게 명쾌한 애플리케이션 운영의 첩경으로 인도하게 된다. 프로메테우스 같은 애플리케이션 모니터링에 익숙하지 않은 경우엔, 내용 자체가 다소 무겁게 다가올 수 있으나 어떠한 메트릭을 통해 애플리케이션의 상태를 가늠할 수 있는지에 대한 감을 익히는 것만으로도 큰 도움이 되지 않을까 생각한다. 

 

이윽고 차트의 중요성에 대해 이 책은 서술하고 있으며 차트라는 유용한 도구를 통해 어떻게 하면 좀더 효율적인 결과를 획득할 수 있는지에 대한 유용한 팁을 얻을 수 있게 된다. 계속해서 클라우드 환경에서의 CI를 보다 안정적으로 활용할 수 있는 내용을 함께 다루며, 소스코드에 대한 관찰 가능성, 트래픽 관리 등을 통해 SRE가 지향하는 가치를 온전히 실현하고 실천할 수 있는, 둘도 없는 중요한 가이드를 여실히 제공 받게 된다.  

 

전반적으로 내용 자체가 꽤 무겁게 느껴질 수 있지만, 인내심을 갖고 끝까지 책을 읽어 나간다면 분명 적지 않은 소득을 얻을 수 있는 도서임엔 틀림 없다고 생각한다. SRE에 관심이 있거나, 클라우드 환경에서 자바 애플리케이션을 운영하고 있는 개발자, 운영자들에게 이 책을 적극 추천한다. 

 

P.S 
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

반응형