msksgm’s blog

msksgm’s blog

Webエンジニアです。日々の勉強記録、技術書感想、美術観賞感想を投稿します。

「サイトリライアビリティワークブック」感想

概要

サイトリライアビリティワークブックを読みました。 感想を書きます。

www.oreilly.co.jp

前提

目的

本書を読んだ背景は以下です。

事前知識

業務で SRE チームや関連の領域に所属しておらず、自社開発企業のプロダクト開発エンジニアとして働いています。 SRE は業務外の範囲で知見を深めており、学んだことを業務に導入したりしています。 直近では、ポストモーテムの作成文化、SLO の考え方の導入、モニタリング・オブザーバビリティについての基礎知識の共有といったことを行いました。

SRE 関連の書籍は以下を読んでいました。

DevOps 関連で言えば以下の書籍を読んでいました。

他にもSRE NEXT 2023 に参加することで、SRE の日本企業の事例も学びました。 当時の参加感想は以下の記事にまとめました。

msksgm.hatenablog.com

読了時間

個人的に勉強会を開催し、以下の日程で読み進めていました。 全 6 回で、準備に 4 ~ 6 時間かけて、当日の勉強会では 1 ~ 2 時間で行いました。 そのため、合計所要時間は約 6.5 時間(5 時間 + 1.5 時間)で行いました。 そのため、合計所要時間は約 6.5 時間 × 6 回のため、約 39 時間程度で読み切りました。

No. 日付
1 2023/09/12 1 章 第 Ⅰ 部 ~ 4 章
2 2023/09/18 5 章~ 7 章
3 2023/10/03 第 Ⅱ 部 8 章 ~ 10 章
4 2023/10/10 11 章 ~ 13 章
5 2023/10/17 14 章 ~ 第 Ⅲ 部 17 章
6 2023/10/24 18 章 ~ 21 章 + まとめ

本書を読み進めるにあたって、SRE 本と SLO 本をすでに読み切っていたので、説明が重複している領域は比較的読み進めやすかったです。

感想

ワークブックは SRE 本と比較して内容が身近で読みやすく、SRE 本の読了後に読むとまた一段階 SRE についての理解を深めることができる本だと思いました。 副読本と称している通り、逆に SRE 本よりも先にワークブックから読むことで、SRE 本を読む際のハードルを下げられると思いました。 個人的には SRE を学ぶ際には多少読み飛ばしつつも SRE 本から読んだ方が良い(できれば複数人で)と考えています。 しかし、個人で SRE 本を読み進めるのが難しければ、ワークブックを読んでから SRE 本を読むのも良いと思いました。

良かった点と個人的に読み進めるのが難しかった点をそれぞれ記述していきます。

良かった点

良かった点は、SRE 本と比較して基本的な用語と他社事例のケーススタディが圧倒的に読みやすい内容だったことです。 SRE 本で紹介された単語レベルでも、文章を咀嚼するのに時間を必要とする場合がありました。 具体的な単語でいえば、以下の用語が挙げられます。これらの単語を、ワークブックは SRE 本とは別観点で、理解が深められる本だと思いました。

  • SLO
  • トイル
  • オンコール
  • インシデント対応
  • etc...

そして、これらを実践するケーススタディの内容も具体的かつ実践的で印象に残りました。特に、SLO について Evernote と Home Depot の例わかりやすかったです。 最近では、SRE NEXT 2023で日本企業の事例を学べる機会がありますが、書籍ベースでもこれらを学ぶことができるのは初学者の始めの一歩として最適でした。

また、18 章から 20 章までの内容は、これから SRE チームを作成や、文化の形成といった内容でした。 自身は SRE チームに所属していませんが、SRE の考え方をプロダクト開発に導入しようと日々活動しています。 気持ちの持ち方的には、Embedded SRE ですので、SRE チームがない状態からどのように発足や活動していくのかについて印象に残りました。

個人的に読み進めるのが難しかった点

読み進めるのが難しかったの点は 2 つあります。
1 つめは、 Google の具体的すぎるケーススタディです。 SRE 本に引き続き Googleケーススタディは規模が桁違いだったり、当時の状況ベースだったりして頭に入ってきませんでした。 単純に自身の知識不足なのが大きいですが、SRE 本を読み進める上でこれらに詰まっている場合はワークブックを読んでも解消されないかもしれません。
2 つめは、自身の SRE についての経験と知識不足によるものです。 大規模なシステムの負荷分散だったり、監視・オブザーバビリティ、SLO からエラーバジェットの運用だったりと、実力不足によって理解しきれない部分が多く実感しました。 これらは自身の目標に掲げているので引き続き SRE の書籍や技術的な書籍を読んでいきます。

次に関連で勉強すること

引き続き SRE 関連の書籍を読み進めていきます。 SRE の探求は個人で開催している課題図書として、読み始めます。 ほかの書籍も順次読み進めていきます。

また、SRE に関連する以下のカンファレンスが存在を知ったので、これらに参加することで知見を深めていきます。

  • SRE NEXT
  • DevOpsDays Tokyo
  • CloudNative Days
  • Platform Engineering Meetup

まとめ

ワークブックは、SRE の知見を一段階深めることが可能になる書籍でした。 SRE 本と比較して、内容が身近になっており、用語の意味を抑えられるようになりました。 自身は SRE 本を先に読みましたが、ワークショップから先に読み始めても良いと思いましたし、並行して読んでも良いと考えています。 引き続き、SRE の知見を深めるために、書籍面ではSRE の探求を読み、SRE 関連のカンファレンスにも参加してきます。