概要
「SRE NEXT 2025」に参加しました。 感想を記述します。 本記事は AI を利用しながら作成しました。
- 概要
- 参加理由
- セッション感想
- Day 1 セッション詳細
- Keynote: Fast by Friday - Making performance analysis fast and easy
- SRE 不在の開発チームが障害対応と向き合った 100 日間
- 事例で学ぶ!B2B SaaS における SRE の実践例
- スタートアップで SRE を実践(パネルディスカッション)
- Rethinking Incident Response: Context-Aware AI in Practice
- OpenTelemetry セマンティック規約の恩恵と Mackerel APM における活用例
- TLS からみる SRE の未来
- 〜『世界中の家族のこころのインフラ』を目指して”次の 10 年”へ〜 SRE が導いたグローバルサービスの信頼性向上戦略とその舞台裏
- 公募 LT-C(4 つの LT)
- Day 2 セッション詳細
- ロールが細分化された組織で SRE は何をするか?
- Day 1 セッション詳細
- まとめ
- 最後に
参加理由
普段は SRE として活動しています。 SRE NEXT は SRE プラクティスの知見収集や、o11y 周りで新しい知見がないかと考えて参加しました。 あとは毎年の恒例として参加しました。
セッション感想
Day 1 セッション詳細
Keynote: Fast by Friday - Making performance analysis fast and easy
Intel のフェローであり、「システム詳解パフォーマンス」の著者である Brendan Gregg さんの発表でした。
パフォーマンス問題の解決を 5 日間(月曜から金曜)という目標で、毎日どのように解決していくのかについてストーリーで体系化しながら発表されていました。
パフォーマンスの原因特定から改善まで取り組めたことがないため、今回の発表のような取り組みができるエンジニアになりたいと思いました。
SRE 不在の開発チームが障害対応と向き合った 100 日間
ログラスの勝丸さんによる、SRE 不在での取り組み事例です。
SRE チームがない状況で、カスタマーサクセスチームからのフィードバックを契機に、改善に取り組んだ内容でした。 具体的には、インシデントコマンダーの専任化、Waroom ツールの導入、障害対応フローの再整備をしていました。
想定と実態が一致しないことはどの現場でも起きうることで、まずは実態を抑えられたのがよかったと思いました。
事例で学ぶ!B2B SaaS における SRE の実践例
続いて、ビットキーの星野さんから B2B SaaS 特有の課題について伺いました。
サービス特有の課題として、繁忙期(3 月末)のパフォーマンス問題と特定顧客ごとの SLI 設計の事例を紹介しました。
それぞれの課題を見出しつつ、組織にフィットした形で、プラクティスを実践されているのが印象的でした。
スタートアップで SRE を実践(パネルディスカッション)
newmo、IVRy、タイミー、ダイニー各社によるパネルディスカッションが行われました。
スタートアップにおける SRE の現実的な課題を議論し実践的な知見を共有されていました。
スタートアップに限らない本質的な課題と向き合いながら、どう SREing していくのか議論されていて印象的でした。
Rethinking Incident Response: Context-Aware AI in Practice
インシデント対応の文脈では、Topotal の rrreeeyyy さんが AI 活用について紹介されました。
インシデントレスポンス SaaS「Waroom」における AI の取り組みを発表されていました。 MCP(Model Context Protocol)や API などについても共有されていました。
Topotal と Waroom を 2022 年の SRE NEXT から認識しており、3 年間の進化を感じ取れる内容でした。
OpenTelemetry セマンティック規約の恩恵と Mackerel APM における活用例
オブザーバビリティの観点から、はてなの朝倉さんが OpenTelemetry について解説されました。
OpenTelemetry のセマンティック規約についての説明でした。
自身が OpenTelemetry のドキュメント翻訳に関わっている背景があるため、このような OTel 周辺知識の認知向上は非常にありがたかったです。
TLS からみる SRE の未来
インフラセキュリティの文脈で、STORES の浅野さんから TLS についての発表がありました。
TLS の基本的な部分から、今後の方向性と SRE としての関わりについての発表でした。
TLS を SRE 観点で意識したことがなかったのと、TLS の最新動向の知識が皆無だったため、非常に勉強になりました。
〜『世界中の家族のこころのインフラ』を目指して”次の 10 年”へ〜 SRE が導いたグローバルサービスの信頼性向上戦略とその舞台裏
グローバルサービスの信頼性という観点から、mixi の杉本さんが「みてね」の事例を紹介されました。 グローバルサービスにおける信頼性の向上戦略とその実装について発表されていました。
自身がみてねを利用する機会が多いため、その裏側の SREing を学べて興味深かったです。 また、グローバルな利用者拡大によって 24/365 の重要性が高まるため、今後の動向についても非常に気になりました。
公募 LT-C(4 つの LT)
以下の 4 点についての発表でした。
- SRE を知らずに SRE マネージャーになった話(小沼小織、マネーフォワード):技術力より組織的支援の重要性
- SRE がコストセンターではないことを大きな声と実例で伝えたい(林如弥、イオンスマートテクノロジ):SRE の価値をプロフィットセンターとして訴求
- インフラ寄り SRE の生存戦略(上司陽平、Sansan):ソフトウェアエンジニアへの転向提案
- メタバースプロジェクトにおける Observability 構築(sugar cat、カバー):ユーザージャーニーの可視化
どれも地に足ついた現場の発表でおもしろかったです。 発表そのものではありませんが、5 分間で密な発表をされていたので、発表方法や資料の作り方についても気になりました。
Day 2 セッション詳細
すみずみまで暖かく照らすあなたの太陽でありたい
Day 2 は、ヨドバシの戸田さんによる大規模システム運用の進化についての発表から始まりました。
ヨドバシカメラの大規模システム運用の進化を紹介し、オンサイトプライベートクラウド(Yodobashi Cloud)の構築、マルチリージョン構成によるオンコール対応の削減などについて発表されていました。
オンサイトプライベートクラウドを運用できているのが素直にすごいと思いました。 また、監視も OpenTelemetry を利用する予定があって、時代の流れへの対応ができていて印象的でした。
アクセスピークを制するオートスケール再設計: 障害を乗り越え KEDA で実現したリソース管理の最適化
リソース最適化の観点では、マネーフォワードの Yamashita さんがオートスケーリングの改善事例を共有されました。
AWS 移行後の障害を契機に、HPA の CPU 閾値ベースから、KEDA を活用したリクエスト数ベースのオートスケーリングへ改善。minReplica を 60 %削減し、コスト最適化を実現した事例を紹介していました。
負荷試験が実態に即していなかったときのつらみに対して共感しました。 そして単純なリソース増強に頼らず、プラットフォームエンジニアリング的な観点で解決し、コスト最適化をしているのがおもしろかったです。
“日本一の M&A 企業”を支える、少人数 SRE の効率化戦略
少人数での SRE 実践について、GENDA の木村さんから効率化戦略が紹介されました。
プロダクトやエンジニアが増えていく状況で、いかに効率よく SREing するかについての発表でした。
現職が似たような状況にあるため、組織の状況や性質に追従できるような SRE 体制が重要だと、再認識しました。
ロールが細分化された組織で SRE は何をするか?
組織構造と SRE の関係について、KINTO テクノロジーズの長内さんが実践例を共有されました。
横断組織が多数存在する環境での SRE の価値創出方法を議論。オブザーバビリティ向上(New Relic 導入)、自動化ツール開発、プロアクティブな改善サイクルの構築をしていました。
こちらも大規模組織における、導入課題を実感しているため、共感する部分が多く勉強になりました。
システムから事業へ 〜SRE が描く"その先"のキャリア〜
SRE のキャリアパスという視点から、ココナラの川崎さんが経営層での活用可能性を提示されました。
SRE の知識とスキルが経営層でも活用できることを提示。エラーバジェット → リスク管理、SLO/SLI→ 経営指標への置き換えなど、SRE プラクティスの汎用性を説明していました。
自身はまだ具体的なキャリアを設定していませんが、今回の発表が参考になるエンジニアが多そうだと思いました。
SRE のための eBPF 活用ステップアップガイド
技術的に深い内容として、グリーの岩堀さんから eBPF の実践的活用法が紹介されました。
eBPF の実践的な活用方法を 3 段階(既存ツール利用 →bpftrace→eBPF プログラム作成)で解説。プロセスの突然死調査、パフォーマンス分析、未利用コード検出などの実例を紹介。
eBPF の実践例は非常に少ないため、貴重な講演でした。 講演内容を理解できたわけではありませんが、o11y 関連の技術として、将来的に関わっていく必要がありそうだと思いました。
システム障害対応のツマミになる話
最後に、野村総合研究所の木村さんが 20 年以上の経験を基にした障害対応の体系化について語られました。
システム障害対応を「ユーザー影響の極小化」という目的で体系化。 インシデントコマンダーの重要性、障害対応プロセスの整理(検知 → 初動 → 復旧 → 収束)、暗黙知から形式知への転換の必要性を強調していました。
20 年以上の現場の障害対応の経験をシェアしており、信頼性を確保する意義について再認識できました。
Chairs Talk & 閉会式
主に下記のことについて触れていました。
まとめ
今年も SRE NEXT 2025 に参加しました。
今年の SRE NEXT の特徴
今年は AI の利活用がメインになると想定していました。 しかし、AI 活用が大半を占めることはなく、実践的な SRE プラクティスの共有も多くありました。 グローバル展開への対応、コスト最適化、スタートアップの SRE、キャリアパスの多様性など、広範囲の分野について触れられていて SRE NEXT の醍醐味だと思いました。
最も印象に残ったセッション
「Fast by Friday - Making performance analysis fast and easy」と「SRE のための eBPF 活用ステップアップガイド」が印象的でした。 パフォーマンスの問題を、SRE の知識や経験をもって対処する姿勢にあこがれを持っています。 次の ISUCON に参加することを決意したので、準備をして本番を迎えることで理想のエンジニア像を一歩実現したいと考えています。
最後に
今後は AI 抜きで開発と運用を考えられなくなる時代ですが、今回のカンファレンスでも AI と従来の SRE プラクティスの両方を重視する姿勢を発表者から見受けられました。 どちらも重視しながら学びつつ実践していきたいです。
さまざまな立場および組織のエンジニアが自身のプラクティスを共有する場として、SRE NEXT の存在意義は毎年上がっていると考えています。 来年の SRE NEXT も楽しみです。