구글, 사이트 신뢰성 워크북(SRE Workbook) 공개
웹사이트에서 8월 23일까지 무료 배포
사이트 신뢰성 엔지니어링SRE, Site Reliability Engineering은 구글Google이 사이트와 신뢰성 엔지니어링을 합쳐서 만들어낸 조어입니다. 일반적으로 소프트웨어 엔지니어링과 소프트웨어가 동작하는 인프라스트럭처를 다루는 일은 완전히 별개의 분야로 이해됩니다. 구글에서는 인프라스트럭처를 관리하는 데 있어 소프트웨어 엔지니어링의 기법들은 접목해 인프라스트럭처를 관리하는 소프트웨어 엔지니어라는 새로운 직군을 만들고 이를 SRE라고 이름 붙였습니다.
구글에서는 오래 전부터 SRE라는 직군으로 소프트웨어 엔지니어를 뽑고 있으며, SRE의 개념과 노하우를 정리해 사이트 신뢰성 엔지니어링이라는 동명의 책을 출간한 바 있습니다. 이 책은 오레일리 미디어O’reilly Media에서 2016년 출간되었으며, 구글의 웹사이트에도 전문이 공개되어있습니다. 또한 2018년 1월에 사이트 신뢰성 엔지니어링이란 제목으로 제이펍에서 번역된 바 있습니다.
사이트 신뢰성 워크북The Site Reliability Workbook 은 사이트 신뢰성 엔지니어링을 보완하는 책으로서 SRE의 원칙(principle)과 실천(practice)을 실무에 적용하기 위한 구글과 구글 클라우드 플랫폼 고객사들의 예제를 담고 있습니다. 이 책은 8월 4일 오레일리 미디어에서 종이 책으로 출간 되었으며, 2018년 8월 23일까지 한시적으로 구글 SRE 웹사이트에서 PDF 포맷으로 무료 배포하고 있습니다.
다음은 공식 웹사이트의 소개글 전문입니다.
The Site Reliability Workbook is the hands-on companion to the bestselling Site Reliability Engineering book and uses concrete examples to show how to put SRE principles and practices to work. This book contains practical examples from Google’s experiences and case studies from Google’s Cloud Platform customers. Evernote, The Home Depot, The New York Times, and other companies outline hard-won experiences of what worked for them and what didn’t.
베스트셀러 사이트 신뢰성 엔지니어링에 이은 사이트 신뢰성 워크북은 SRE의 원칙과 실천 방법을 업무에 적용하기 위한 구체적인 예제들을 담고 있는 책입니다. 이 책에는 구글의 경험과 구글 클라우드 플랫폼 고객들의 케이스 스터디로부터 얻은 실제 예제들을 포함하고 있습니다. 에버노트Evernote, 홈 디팟The Home Depot, 뉴욕 타임즈The New York Times를 비롯한 회사들에서 어떤 방법이 효과가 있었고 어떤 방법이 효과가 없었는지 어렵게 얻은 경험을 공유해주었습니다.
다음은 사이트 신뢰성 워크북의 목차입니다.
- Chapter 1. How SRE Relates to DevOps
- PART I. Foundation
- Chapter 2. Implementing SLOs
- Chapter 3. SLO Engineering Case Studies
- Chapter 4. Monitoring
- Chapter 5. Alerting on SLOs
- Chapter 6. Eliminating Toil
- Chapter 7. Simplicity
- PART II. Practices
- Chapter 8. On-Call
- Chapter 9. Incident Response
- Chapter 10. Postmortem Culture: Learning from Failure
- Chapter 11. Managing Load
- Chapter 12. Introducing Non-Abstract Large System Design
- Chapter 13. Data Processing Pipelines
- Chapter 14. Configuration Design and Best Practices
- Chapter 15. Configuration Specifics
- Chapter 16. Canarying Releases
- Part III. Processes
- Chapter 17. Identifying and Recovering from Overload
- Chapter 18. SRE Engagement Model
- Chapter 19. SRE: Reaching Beyond Your Walls
- Chapter 20. SRE Team Lifecycles
- Chapter 21. Organizational Change Management in SRE
- Conclusion