Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2025年新卒エンジニア研修 SRE資料/202504-sre
Search
日本経済新聞社 エンジニア採用事務局
June 10, 2025
Technology
0
58
2025年新卒エンジニア研修 SRE資料/202504-sre
2025年4月に実施した新卒エンジニア研修の資料です。
SRE(Site Reliability Engineering) 、日経の SRE の取り組み
日本経済新聞社 エンジニア採用事務局
June 10, 2025
Tweet
Share
More Decks by 日本経済新聞社 エンジニア採用事務局
See All by 日本経済新聞社 エンジニア採用事務局
SRE ガイドマップを用いたイネーブルメントの実践/nikkei-tech-talk-34
nikkei_engineer_recruiting
0
160
プロジェクト内でデザイナーができること 日経電子版アプリ機能開発「For You」#nikkei_tech_talk
nikkei_engineer_recruiting
8
4k
日経電子版 for Android の技術的課題と取り組み(令和最新版)/android-20250423
nikkei_engineer_recruiting
3
1.3k
日経IDにおけるパスキー
nikkei_engineer_recruiting
0
110
リアルタイム行動ログを付加価値に繋げる、ファンアウトの試行錯誤/tech-street
nikkei_engineer_recruiting
0
120
HCP Terraformで実現するPlatform Engineering/nikkei-tech-talk-29
nikkei_engineer_recruiting
0
690
A/Aテストにおけるサンプルサイズ/japanr2024
nikkei_engineer_recruiting
1
1k
モバイルアプリ開発未経験者が プロダクト開発に携わるまでに取り組んだこと/nikkei-tech-talk-27-3
nikkei_engineer_recruiting
1
390
Android 15 でウィジェットピッカーのプレビュー画像をGlanceで魅せたい/nikkei-tech-talk-27-1
nikkei_engineer_recruiting
0
430
Other Decks in Technology
See All in Technology
A2Aのクライアントを自作する
rynsuke
1
220
フィンテック養成勉強会#54
finengine
0
180
ひとり情シスなCTOがLLMと始めるオペレーション最適化 / CTO's LLM-Powered Ops
yamitzky
0
450
ネットワーク保護はどう変わるのか?re:Inforce 2025最新アップデート解説
tokushun
0
110
Tech-Verse 2025 Global CTO Session
lycorptech_jp
PRO
0
900
KubeCon + CloudNativeCon Japan 2025 Recap Opening & Choose Your Own Adventureシリーズまとめ
mmmatsuda
0
210
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 完全版 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming - Expanded
tomzoh
4
3.3k
無意味な開発生産性の議論から抜け出すための予兆検知とお金とAI
i35_267
0
180
5min GuardDuty Extended Threat Detection EKS
takakuni
0
160
Lambda Web Adapterについて自分なりに理解してみた
smt7174
5
130
怖くない!はじめてのClaude Code
shinya337
0
240
AWS テクニカルサポートとエンドカスタマーの中間地点から見えるより良いサポートの活用方法
kazzpapa3
2
570
Featured
See All Featured
Practical Orchestrator
shlominoach
188
11k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Done Done
chrislema
184
16k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
The Cult of Friendly URLs
andyhume
79
6.5k
Unsuck your backbone
ammeep
671
58k
Balancing Empowerment & Direction
lara
1
380
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Writing Fast Ruby
sferik
628
62k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
Site Reliability Engineering (SRE) 日本経済新聞社 エンジニア新卒研修 2025 エンジニアとして、システムの信頼性をどう考え、どう実践するか? エンジニア新卒研修2025 -
SRE 1
本日のゴール SREがなぜ必要とされているのかを理解する。 SREの基本的な考え方 (原則) を知る。 これからの仕事で意識すべきことを知る。 エンジニア新卒研修2025 - SRE 2
アジェンダ 1. SREとは? 2. SREの基本原則 3. 開発プロセスとSRE 4. SREを支える文化 5.
まとめ エンジニア新卒研修2025 - SRE 3
SRE って聞いたことありますか? エンジニア新卒研修2025 - SRE 4
SREとは - Site Reliability Engineering ソフトウェアエンジニアリングの手法を運用に適用し、 スケーラブルで信頼性の高いシステムを構築・運用するアプローチ。 エンジニア新卒研修2025 - SRE
5
SREのコアコンセプト 「SREとは、ソフトウェアエンジニアに運用チームを設計させたらどうなるか、ということだ」 Ben Treynor Sloss (Google SRE創設者) 開発者自身がシステムの信頼性に責任を持つ文化へ。 手作業ではなく、エンジニアリング (自動化、ツール開発)
で運用課題を解決する。 エンジニア新卒研修2025 - SRE 6
「信頼性」とは? ユーザーが期待する水準を満たし続けること 単なる「稼働率 (Uptime; どれだけの時間稼働しているか)」だけではない。 レイテンシ、エラー率、スループット、可用性など、ユーザー体験に関わる様々な側面を含む。 たとえば、日経電子版で言えば、 、 、 ユーザが記事を読みたいときに読める
記事が1秒以内に表示される など エンジニア新卒研修2025 - SRE 7
SRE が必要となった背景 エンジニア新卒研修2025 - SRE 8
変化するシステムと運用の課題 システムの複雑化・大規模化: マイクロサービス、クラウド、分散システム… リリースサイクルの高速化要求: ビジネスの変化に素早く対応したい! 従来の運用アプローチの限界: 手作業によるミスや遅延 変化への追従が困難 (スケーラビリティ問題) システムの「信頼性」と「開発速度」の両立が大きな課題に。
エンジニア新卒研修2025 - SRE 9
開発速度と信頼性 ソフトウェア開発の一般的な役割分担: 開発 (Development): 新機能の設計・実装 コードの変更・修正 主な関心事: 早く新しい価値を届けたい! 運用 (Operations):
システムの安定稼働・監視 インフラの構築・管理 主な関心事: システムを止めずに安定させたい! 目標の違いから、時には対立 ("壁") が生まれることも… エンジニア新卒研修2025 - SRE 10
開発と運用チームの対立による問題 チーム間の「壁」が引き起こす具体的な課題: 開発の遅延: 運用チームの承認待ちや複雑なデプロイ手順により、機能リリースが遅れ、ビジネス機 会を損失する。 責任の押し付け合い: 問題発生時に互いに責任を押し付け合い、根本原因の特定と解決が遅れる。 知識の分断: 開発者は運用の課題を理解せず、運用は開発の意図を理解できず、技術的負債と運用コ ストが増大する。
モチベーションの低下: 互いの仕事への理解不足から尊重し合えず、チーム間のコミュニケーション と協力が減少する。 このような問題が、ビジネス価値の提供を妨げる要因に。 エンジニア新卒研修2025 - SRE 11
DevOps 開発 (Dev) と 運用 (Ops) が協力する文化・プラクティス 目的: ビジネス価値を 迅速
かつ 継続的 に、安定 して届ける。 文化: チーム間の壁を取り払い、コミュニケーションと協力を促進。 プラクティス: CI/CD パイプライン、自動テスト、Infrastructure as Code (IaC)、モニタリングなど。 エンジニア新卒研修2025 - SRE 12
SRE と DevOps の関係 "Class SRE implements interface DevOps" (by
Google) SREは、DevOpsの考え方を「信頼性」という視点で実践する具体的な方法 DevOps: 開発と運用が協力して、より良いサービスを作る 考え方 チーム間の壁をなくす 継続的に改善する SRE: DevOpsの考え方を実現する「信頼性」を中心とした 具体的な方法 信頼性を数値で計測し、全員の共通認識とする 手作業を自動化し、信頼性の高いシステム・プロセスを実現する 障害から継続的に学びを得る エンジニア新卒研修2025 - SRE 13
なぜSREを学ぶのか? 信頼性は全員が意識すべきこと SREは特定のチームだけでなく、すべてのエンジニアがユーザーに価値を届けるために必要な考 え方。最初に学ぶことで、品質を意識した開発の基礎ができる。 ユーザー視点を身につける 信頼性とはユーザーの満足度。SREは、ユーザーが本当に求めていること(速度、安定性など) をデータで捉え、改善する視点を養う。 システム全体で考える力 自分のコードがシステム全体、そしてユーザー体験にどう影響するかを理解する助けになる。 問題解決の視野も広がる。
エンジニア新卒研修2025 - SRE 14
2. SREの基本原則 SREの活動を支える4つの重要な柱: 1. モニタリング (システムの声を聴く - SLO/SLI) 2. エラーバジェット
(失敗を許容する考え方) 3. 自動化 (つまらない作業 = "トイル" をなくす) 4. インシデント管理 (失敗から学ぶ - 非難のないポストモーテム) エンジニア新卒研修2025 - SRE 15
原則1: モニタリング (Monitoring) システムの状態を継続的に計測・可視化すること。 なぜモニタリング?: システムの健康状態を知る (元気? 不調?) 問題を早期発見する (アラート)
SLO (信頼性目標) が達成できているか測る データに基づいた判断をする (リリース判断、改善) 計測できないものは改善できない。まずは計測! エンジニア新卒研修2025 - SRE 16
サービスレベル指標 / サービスレベル目標 サービスレベル指標: SLI (Service Level Indicator) 計測指標: サービスにおいて重要な側面を測る定量的な指標。
ユーザー体験で重要なものは何か。 例: リクエスト成功率、レスポンスタイム サービスレベル目標: SLO (Service Level Objective) 目標値: SLIに対する内部的な目標 ユーザーの期待する信頼性のレベル (これを満たせばユーザーは満足するはずという値) 例: リクエスト成功率 > 99.9% エンジニア新卒研修2025 - SRE 17
原則2: エラーバジェット (Error Budget) 許容できる信頼性低下の量 = ユーザーが気にしない程度のダウンタイムやエラー。 計算例: SLO 99.9%
→ エラーバジェット 0.1% (月間約43分) 目的: 100%完璧を目指すのは高コストで非現実的。 エラーバジェットは 信頼性と開発速度 (新機能リリース) のバランスを取る指標。 予算が残っていれば、新しい挑戦 (リリース等) がしやすい。 予算が少なければ、信頼性改善を優先 (新機能リリースを控える)。 エラーバジェットは「ペナルティ」ではなく「開発のためのリスク許容量」 エンジニア新卒研修2025 - SRE 18
原則3: 自動化 (Automation) 手作業 (トイル) をコードに置き換えること。 トイル: 自動化可能で何度も実施する手作業、価値がスケールしない作業。 例: 月次の手動バックアップ、手動デプロイ、定型的な設定変更、手動テスト
自動化の目的: 信頼性向上: ヒューマンエラー削減、一貫性確保。 効率化: 作業時間短縮 → 開発者はより創造的な作業へ。 迅速化: CI/CDによる素早いリリース。 面倒な繰り返し作業は、自動化できないか常に考えよう! エンジニア新卒研修2025 - SRE 19
原則4: インシデント管理 (Incident Management) インシデント (サービス停止や劣化) に迅速に対応し、復旧させ、再発を防止するプロセス。 前提: 複雑なシステムではインシデントは必ず起きる。 手段:
インシデント対応マニュアルの策定 インシデント後のふりかえり (ポストモーテム) 目的: 発生時の影響を最小限に (MTTR短縮)。 根本原因を理解し、学びを得て改善する。 エンジニア新卒研修2025 - SRE 20
ポストモーテム インシデント後に実施する振り返り分析。 目的: 学習と改善 (犯人探しではない!) 重要な文化: Blameless (非難しない) 個人ではなく、システムやプロセスの問題に焦点を当てる。 「なぜそのミスが起こり得る状況だったか?」を問う。
成果物: 具体的な再発防止策 (アクションアイテム)。 失敗は最大の学びの機会。オープンに議論できる文化が重要。 エンジニア新卒研修2025 - SRE 21
3. 開発プロセスとSRE 信頼性は、開発ライフサイクルの全フェーズで考慮されるべき品質特性。 設計: SLO定義、耐障害性、モニタリング容易性、安全なデプロイ方法 実装: 適切なログ、エラーハンドリング、パフォーマンス、テスト容易性 テスト: 負荷テスト、カオスエンジニアリング、自動化 デプロイ:
CI/CD、ロールバック計画、段階的リリース 運用: モニタリング、アラート対応、インシデント分析、改善 システムに「あとで信頼性を足す」のは難しい。最初から考えよう! エンジニア新卒研修2025 - SRE 22
4. SREを支える文化 技術やプロセスだけでは不十分。文化が成功の鍵。 心理的安全性 失敗を学びに変える文化 実験と改善の文化 データに基づく意思決定 エンジニア新卒研修2025 - SRE
23
心理的安全性 チームメンバーが安心して発言・挑戦できる状態。 具体例: インシデント時に「私のミスかもしれません」と正直に言える コードレビューで「この実装は不安です」と指摘できる 新しい技術の導入を「試してみたい」と提案できる 自分の知識の不足を認め、 「教えてください」と言える 「おかしい」と言える、 「やってみよう」と言える環境が重要。
エンジニア新卒研修2025 - SRE 24
失敗を学びに変える文化 失敗を非難せず、学びの機会と捉える。 具体例: インシデントやバグを「誰のせい」ではなく「なぜ起きたか」に焦点を当てる 「ヒューマンエラー」という言葉を使わない(システムやプロセスの問題として捉える) 失敗を隠さず、共有して学び合う 小さな失敗を早期に発見・共有し、大きな問題を防ぐ 失敗は学びの機会。個人ではなく、システムやプロセスの問題に焦点を当てる。 エンジニア新卒研修2025 -
SRE 25
実験と改善の文化 小さな失敗を恐れず、継続的に改善を試みる。 具体例: カナリアリリースやA/Bテストを積極的に行う 改善案を小さく試し、効果を測る 失敗から学び、次の改善に活かす 技術選定に「完璧」を求めず、実践を通じて学ぶ 定期的な振り返り(レトロスペクティブ)で改善点を見つける エラーバジェットがあると実験を試みやすい 完璧を目指すのではなく、小さな改善を積み重ねていく
エンジニア新卒研修2025 - SRE 26
データに基づく意思決定 感情や直感ではなく、データに基づいて判断する。 具体例: パフォーマンス問題は「遅い」という感覚ではなく、メトリクスで判断 リリース判断はエラーバジェットの残量に基づく 技術選定は実証実験の結果に基づく 改善の効果は定量的に測定する 「なんとなく」ではなく、 「データで示せる」判断を心がけよう。 エンジニア新卒研修2025
- SRE 27
まとめ なぜSREが必要? 開発速度と信頼性の両立のため。 データ(SLO等)とDevOpsで実現。 SREの基本原則は? 4つの柱 モニタリング, エラーバジェット, 自動化, インシデント管理。
何を意識する? ユーザー視点で信頼性を考える。データで判断し、全員で責任を持つ。開発全段階で意識し、 継続的に改善。 この講義で得た知識・視点を、これからの業務に活かしてみてください! エンジニア新卒研修2025 - SRE 28