【テンプレあり】英語ゲームデイ計画書の書き方|SRE・インフラチームで使える日英フォーマット付き

※本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

技術英語の実践術

英語でGame Day(障害訓練)の計画書を書くよう求められたとき、何を準備すればいいか迷った経験はないだろうか。

Game DayはNetflixのChaos Engineeringから広まった障害訓練の手法だ。意図的に障害を発生させ、チームの対応力と復旧手順を検証する。5つのセクション構成さえ押さえれば、英語でも問題なく計画書を書ける。

この記事では、英語Game Day計画書に必要な5つの構成要素と、そのまま使える日英テンプレートを紹介する。コピペして使えばすぐに次の障害訓練で活用できる。


Game Day計画書に必要な5つの構成要素

Game Day(ゲームデイ)計画書は障害訓練の目的・シナリオ・手順・評価基準を事前に定義するドキュメントだ。以下の5つが標準的な構成要素になる。

  1. 基本情報・目的(Overview & Goals)
  2. 訓練シナリオ(Scenarios)
  3. 実施手順(Execution Plan)
  4. 評価基準(Success Criteria)
  5. 結果・振り返り(Results & Retrospective)

Chaos EngineeringとGame Dayの違い

Chaos Engineeringは「本番環境で継続的に障害を注入し、システムの弱点を発見する」エンジニアリング手法全体を指す。Game Dayはその中の「計画された訓練イベント」だ。事前に参加者・シナリオ・評価基準を定め、チームで対応力をテストする演習として位置づけられる。

なぜ英語で書くのか

グローバルSREチームでは、Game Day計画書がインシデント対応や復旧手順(Runbook・DRP)と同じリポジトリで英語管理される。英語で書くことで、海外メンバーも同じ基準で訓練に参加でき、事後のポストモーテムとも一貫性が保てる。

障害復旧計画書(DRP)の書き方は英語障害復旧計画書の書き方でも確認してほしい。


テンプレートをダウンロード(Word)

以下のWordファイルをダウンロードして、プロジェクトに合わせてカスタマイズして使ってほしい。表の列・行はそのまま追加・削除できる。

📥 日本語テンプレートをダウンロード(Word)
📥 Download English Template (Word)

日本語版テンプレート(コピペOK)

基本情報・目的

項目内容
訓練名(例:決済サービス フェイルオーバー訓練 2026-Q3)
実施日時(例:2026年8月20日 10:00〜13:00)
対象システム(例:決済APIサービス・DBクラスター)
実施チーム(例:バックエンドSREチーム)
ファシリテーター(名前)
目的(例:マルチリージョンフェイルオーバー時のRTO(目標復旧時間)30分以内を検証する)

訓練シナリオ

#シナリオ名注入する障害想定影響
1(例:プライマリDB障害)(例:プライマリDBへのネットワーク遮断)(例:決済APIが503を返す。レプリカへのフェイルオーバーが自動で発動する)
2(例:キャッシュ全消去)(例:Redisクラスターの全キー削除)(例:APIレスポンスタイムが急増する。DBへの直接アクセスが増加する)
3(例:リージョン障害シミュレーション)(例:ap-northeast-1リージョンへのトラフィックを遮断)(例:ap-southeast-1へのフェイルオーバーが発動する)

実施手順

#ステップ担当所要時間確認方法
1(例:前提確認:ダッシュボード正常・アラート無効化)SREリード10分Datadogで全グリーン確認
2(例:シナリオ1実施:DBネットワーク遮断)インフラ担当5分iptablesコマンド実行
3(例:フェイルオーバー観測・復旧対応)全員30分Datadogアラート・ログ確認
4(例:復旧確認:APIレスポンス正常化)SREリード10分ヘルスチェックエンドポイント確認
5(例:シナリオ2〜3を繰り返し実施)全員60分各シナリオ後に評価基準を確認
6(例:振り返りミーティング)ファシリテーター30分事後テンプレートを記入

評価基準

指標目標値測定方法
RTO(目標復旧時間)30分以内障害注入からAPIヘルスチェック正常化までの時間
RPO(目標復旧時点)5分以内のデータ損失DBレプリカのレプリケーション遅延
アラート検知時間2分以内障害注入からPagerDutyアラート発報までの時間
手順書(Runbook)の完全実施100%Runbookの全ステップを手順書通りに実施できたか

結果・振り返り

項目内容
実施日(例:2026-08-20)
実施したシナリオ(例:シナリオ1・2を実施。シナリオ3は時間不足でスキップ)
評価基準の達成状況(例:RTO 28分で達成。アラート検知は3分(目標2分を未達))
発見した問題(例:Runbookの手順3に記載のコマンドが古く、実行に5分のロスが発生した)
改善アクション(例:Runbook手順3を更新する(担当:田中、期限:2026-08-27))
次回の訓練予定(例:2026年11月(Q4 Game Day))

英語版テンプレート(コピペOK)

Overview & Goals

ItemDetails
Exercise Name(e.g., Payment Service Failover Game Day 2026-Q3)
Date & Time(e.g., August 20, 2026, 10:00–13:00)
Target Systems(e.g., Payment API Service, DB Cluster)
Team(e.g., Backend SRE Team)
Facilitator(Name)
Goal(e.g., Verify that multi-region failover meets the RTO target of 30 minutes.)

Scenarios

#ScenarioFailure InjectionExpected Impact
1(e.g., Primary DB Failure)(e.g., Block network access to the primary DB.)(e.g., Payment API returns 503. Automatic failover to replica is triggered.)
2(e.g., Cache Flush)(e.g., Delete all keys in the Redis cluster.)(e.g., API response times spike. Direct DB access increases.)
3(e.g., Region Failure Simulation)(e.g., Block all traffic to ap-northeast-1.)(e.g., Failover to ap-southeast-1 is triggered.)

Execution Plan

#StepOwnerDurationHow to Verify
1(e.g., Pre-check: Confirm dashboard is green, disable production alerts.)SRE Lead10 minAll green on Datadog
2(e.g., Scenario 1: Block DB network access.)Infra Engineer5 minRun iptables command
3(e.g., Observe failover and respond.)All30 minDatadog alerts and logs
4(e.g., Confirm recovery: API responses normalized.)SRE Lead10 minHealth check endpoint
5(e.g., Run Scenarios 2–3.)All60 minCheck success criteria after each scenario
6(e.g., Retrospective meeting.)Facilitator30 minFill in results template

Success Criteria

MetricTargetHow to Measure
RTO (Recovery Time Objective)Within 30 minutesTime from failure injection to API health check passing
RPO (Recovery Point Objective)Less than 5 minutes of data lossDB replica replication lag
Alert Detection TimeWithin 2 minutesTime from failure injection to PagerDuty alert
Runbook Adherence100%Were all Runbook steps followed as documented?

Results & Retrospective

ItemDetails
Date Conducted(e.g., 2026-08-20)
Scenarios Completed(e.g., Scenarios 1 and 2 completed. Scenario 3 skipped due to time constraints.)
Success Criteria Results(e.g., RTO: 28 min — achieved. Alert detection: 3 min — missed target of 2 min.)
Issues Found(e.g., The command in Runbook Step 3 was outdated, causing a 5-minute delay.)
Action Items(e.g., Update Runbook Step 3 (Owner: Tanaka, Due: 2026-08-27).)
Next Game Day(e.g., November 2026 (Q4 Game Day))

各セクションの書き方と例文

テンプレートを埋めるときに悩みやすいポイントを解説する。

シナリオの書き方(障害注入→想定影響のセット)

シナリオは「何を壊すか」と「何が起きるか」をセットで書く。「起きるか」を事前に書くことで、実際の観測結果との差異が発見事項になる。

日本語英語
〇〇への接続を遮断するBlock access to [component].
〇〇プロセスを強制終了するKill the [process] process.
〇〇ノードをシャットダウンするShut down the [node].
〇〇のディスクをフルにするFill up the disk on [server].
〇〇へのレイテンシを追加するInject latency into [component].

評価基準の書き方(RTOとRPOの定義)

RTO・RPOは数字で定義する。「なるべく早く」ではなく「30分以内」と書くことで、訓練後の合否が明確になる。

日本語英語
目標復旧時間(RTO):30分以内RTO (Recovery Time Objective): Within 30 minutes
目標復旧時点(RPO):5分以内のデータ損失RPO (Recovery Point Objective): Less than 5 minutes of data loss
可用性目標:99.9%(月次)Availability Target: 99.9% monthly
アラート検知:2分以内Alert Detection: Within 2 minutes
手動対応不要(自動復旧)No manual intervention required (auto-recovery)

SLAとの整合性確認は英語SLAの書き方でも参考にしてほしい。


Game Dayでよく使う英語表現

実務でよく使う英語表現を場面別にまとめた。

Game Day・障害訓練の基本用語

日本語英語
障害訓練Game Day / Chaos Exercise / DR Drill
障害注入Failure Injection
混乱エンジニアリングChaos Engineering
目標復旧時間RTO (Recovery Time Objective)
目標復旧時点RPO (Recovery Point Objective)
フェイルオーバーFailover
フォールバックFallback
ブラストラジアスBlast Radius
「ゲームデイ」終了宣言Call the all-clear

訓練中・事後のフレーズ

日本語英語
今から障害を注入しますWe’re injecting the failure now.
〇〇が影響を受けています[Component] is impacted.
フェイルオーバーが発動しましたFailover has been triggered.
復旧を確認しましたRecovery confirmed.
RTO目標を達成しましたWe met the RTO target.
今日のGame Dayを終了しますCalling the all-clear — Game Day is complete.
Runbookに問題が見つかりましたWe found an issue in the Runbook.

Runbookの整備は英語Runbookの書き方でも確認してほしい。


まとめ:英語Game Day計画書は5つのセクションで完成する

英語Game Day計画書に必要な構成要素を整理した。

  • シナリオは「障害注入の内容」と「想定影響」のセットで書く
  • 評価基準はRTO・RPOを数字で定義し、合否を明確にする
  • 実施手順は「ステップ・担当・所要時間・確認方法」の4列で書く
  • 結果・振り返りで「発見した問題とアクションアイテム」まで記録する

テンプレートをコピーして、まず「シナリオ1本・評価基準2個」から書き始めてほしい。小さく始めて毎クォーター繰り返すことで、チームの対応力が着実に上がる。

コメント

タイトルとURLをコピーしました