英語で障害復旧計画書を作るよう求められたとき、何をどの順番で書けばいいか迷った経験はないだろうか。
障害復旧計画書(DRP)はシステム障害や災害が発生した際にITサービスを復旧するための手順を定めた文書だ。グローバルチームでは英語が基本になるが、6つのセクション構成さえ押さえれば英語でも問題なく書ける。
この記事では、障害復旧計画書に必要な6つの構成要素と、そのまま使える日英テンプレートを紹介する。コピペして使えばすぐに実務で活用できる。
障害復旧計画書に必要な6つの構成要素
障害復旧計画書(DRP:Disaster Recovery Plan)はシステム停止・データ損失・自然災害などが発生した際の復旧手順を定めたドキュメントだ。以下の6つが標準的な構成要素になる。
- 基本情報(Document Info)
- 目的・適用範囲(Purpose & Scope)
- 復旧目標(Recovery Objectives)
- 復旧手順(Recovery Procedures)
- 役割・連絡先(Roles & Contacts)
- テスト・メンテナンス(Testing & Maintenance)
BCPとDRPの違い
BCP(Business Continuity Plan:事業継続計画)は「ビジネス全体をどう継続させるか」を定める上位の計画だ。DRP(Disaster Recovery Plan:障害復旧計画)はBCPの一部として「ITシステムをどう復旧させるか」に特化した文書になる。グローバルチームではDRPを単体で作成・管理するケースが多い。
インシデント対応で使える英語フレーズはエンジニアの英語インシデント対応術でも確認してほしい。
なぜ英語で書くのか
グローバルチームでは障害復旧計画書も英語が共通言語になる。英語で書くことで、海外の運用チーム・クラウドベンダー・監査機関とも同じ手順で復旧対応を進められる。
「読んだ人がすぐに行動できる」ことが、障害復旧計画書の最大の目的だ。
テンプレートをダウンロード(Word)
以下のWordファイルをダウンロードして、プロジェクトに合わせてカスタマイズして使ってほしい。表の列・行はそのまま追加・削除できる。
📥 日本語テンプレートをダウンロード(Word)
📥 Download English Template (Word)
日本語版テンプレート(コピペOK)
基本情報
| 項目 | 内容 |
|---|---|
| 文書名 | (例:〇〇システム障害復旧計画書) |
| バージョン | v1.0 |
| 作成日 | YYYY-MM-DD |
| 作成者 | (名前・役職) |
| 承認者 | (名前・役職) |
| 最終更新日 | YYYY-MM-DD |
| 次回レビュー予定日 | YYYY-MM-DD |
| ステータス | Draft / In Review / Approved |
目的・適用範囲
| 項目 | 内容 |
|---|---|
| 目的 | (例:本計画書は、〇〇システムに障害が発生した際に、迅速かつ確実にサービスを復旧させることを目的とする) |
| 適用システム | (例:〇〇本番環境・DBサーバー・APIゲートウェイ) |
| 適用シナリオ | (例:サーバー障害・データ損失・ランサムウェア感染・自然災害によるDC停止) |
| 適用除外 | (例:開発・ステージング環境。社内PCの個人データ) |
復旧目標
| 指標 | 定義 | 目標値 | 備考 |
|---|---|---|---|
| RTO(Recovery Time Objective) | 障害発生から復旧完了までの最大許容時間 | (例:4時間以内) | ビジネス影響と復旧コストのバランスで設定 |
| RPO(Recovery Point Objective) | 復旧時に許容できるデータ損失の最大時間範囲 | (例:1時間分) | バックアップ頻度と整合させること |
| 復旧優先度:最高 | サービス停止が直接の売上損失につながるシステム | (例:決済API・認証サービス) | 最初に復旧する |
| 復旧優先度:高 | サービス品質に重大な影響があるシステム | (例:注文管理・在庫管理) | 2番目に復旧する |
| 復旧優先度:中 | 一時的に代替手段がある業務支援システム | (例:社内レポート・分析ダッシュボード) | 3番目に復旧する |
復旧手順
| フェーズ | 手順 | 担当 | 所要時間目安 |
|---|---|---|---|
| 1. 検知・初動 | 監視アラートを確認し、インシデント宣言を行う。影響範囲を特定し、エスカレーションする | 当番SRE | 〜15分 |
| 2. 切り替え | フェイルオーバー設定を確認し、バックアップリージョン・DR環境へ切り替える | インフラチーム | 〜30分 |
| 3. データ復旧 | 直近のバックアップからデータをリストアし、整合性を確認する | DBチーム | 〜2時間 |
| 4. 動作確認 | 主要機能の動作テストを実施し、メトリクスが正常範囲内であることを確認する | QAチーム | 〜30分 |
| 5. 復旧宣言 | ステークホルダーに復旧完了を通知し、インシデントをクローズする | インシデントマネージャー | 〜15分 |
| 6. ポストモーテム | 72時間以内に根本原因分析を実施し、再発防止策を策定する | 全関係チーム | 〜1週間 |
役割・連絡先
| 役割 | 担当者 | 連絡先 | 権限 |
|---|---|---|---|
| インシデントマネージャー | (名前) | (電話・Slack) | インシデント宣言・エスカレーション判断 |
| テクニカルリード | (名前) | (電話・Slack) | 復旧手順の意思決定 |
| 当番SRE | (名前・ローテーション) | (電話・PagerDuty) | 初動対応・監視 |
| DBアドミン | (名前) | (電話・Slack) | データ復旧・バックアップ操作 |
| コミュニケーション担当 | (名前) | (電話・Slack) | 社内外への状況通知 |
| ベンダー緊急窓口 | (クラウドベンダー名) | (サポート番号・チケットURL) | インフラ復旧支援 |
テスト・メンテナンス
| 項目 | 内容 |
|---|---|
| テスト頻度 | 年1回のフルDRテスト・四半期ごとの部分テスト(フェイルオーバー確認) |
| テスト方法 | (例:テスト用環境でのフェイルオーバー演習・バックアップリストア確認) |
| 合否基準 | RTO・RPO目標値を満たすこと。全手順を問題なく実施できること |
| 結果記録 | テスト結果レポートを作成し、課題・改善点を次回テストまでに対応する |
| 文書改訂 | システム構成変更・インシデント発生・年次レビュー時に本計画書を更新する |
英語版テンプレート(コピペOK)
Document Info
| Field | Value |
|---|---|
| Document Title | (e.g., [System Name] Disaster Recovery Plan) |
| Version | v1.0 |
| Created Date | YYYY-MM-DD |
| Author | (Name / Role) |
| Approved By | (Name / Role) |
| Last Updated | YYYY-MM-DD |
| Next Review Date | YYYY-MM-DD |
| Status | Draft / In Review / Approved |
Purpose & Scope
| Item | Details |
|---|---|
| Purpose | (e.g., This plan defines procedures to recover [System Name] services rapidly and reliably in the event of a disruption.) |
| Covered Systems | (e.g., Production environment, DB servers, API gateway.) |
| Applicable Scenarios | (e.g., Server failure, data loss, ransomware attack, data center outage due to natural disaster.) |
| Exclusions | (e.g., Development and staging environments. Personal data on employee devices.) |
Recovery Objectives
| Metric | Definition | Target | Notes |
|---|---|---|---|
| RTO (Recovery Time Objective) | Maximum acceptable time from failure to full recovery. | (e.g., Within 4 hours) | Balance business impact against recovery cost. |
| RPO (Recovery Point Objective) | Maximum acceptable data loss window at time of recovery. | (e.g., Within 1 hour) | Align with backup frequency. |
| Priority: Critical | Systems whose downtime directly causes revenue loss. | (e.g., Payment API, auth service) | Recover first. |
| Priority: High | Systems with severe impact on service quality. | (e.g., Order management, inventory) | Recover second. |
| Priority: Medium | Business support systems with temporary workarounds. | (e.g., Reports, analytics dashboard) | Recover third. |
Recovery Procedures
| Phase | Steps | Owner | Est. Duration |
|---|---|---|---|
| 1. Detection & Initial Response | Confirm monitoring alerts, declare an incident, identify blast radius, and escalate. | On-call SRE | ~15 min |
| 2. Failover | Verify failover configuration and switch to backup region / DR environment. | Infra Team | ~30 min |
| 3. Data Recovery | Restore from the latest backup and verify data integrity. | DB Team | ~2 hours |
| 4. Validation | Run smoke tests on key functions and confirm metrics are within normal range. | QA Team | ~30 min |
| 5. Recovery Declaration | Notify stakeholders of recovery completion and close the incident. | Incident Manager | ~15 min |
| 6. Post-Mortem | Conduct root cause analysis within 72 hours and define preventive actions. | All Teams | ~1 week |
Roles & Contacts
| Role | Name | Contact | Authority |
|---|---|---|---|
| Incident Manager | (Name) | (Phone / Slack) | Declare incidents, make escalation decisions. |
| Technical Lead | (Name) | (Phone / Slack) | Make decisions on recovery procedures. |
| On-call SRE | (Name / Rotation) | (Phone / PagerDuty) | Initial response and monitoring. |
| DB Admin | (Name) | (Phone / Slack) | Data recovery and backup operations. |
| Communications Lead | (Name) | (Phone / Slack) | Internal and external status updates. |
| Vendor Emergency Contact | (Cloud Vendor Name) | (Support number / Ticket URL) | Infrastructure recovery support. |
Testing & Maintenance
| Item | Details |
|---|---|
| Test Frequency | Full DR test annually. Partial tests (failover check) quarterly. |
| Test Method | (e.g., Failover drill in test environment. Backup restore verification.) |
| Pass Criteria | Meet RTO and RPO targets. Complete all steps without issues. |
| Test Records | Create a test result report and address identified gaps before the next test. |
| Document Updates | Update this plan upon system changes, post-incidents, and annual reviews. |
各セクションの書き方と例文
テンプレートを埋めるときに悩みやすいセクションを解説する。
RTO・RPOの書き方
RTO・RPOはビジネス影響と復旧コストのバランスで設定する。数値が小さいほど高コストになるため、システムの重要度に応じて現実的な値を設定することが重要だ。
| 日本語 | 英語 |
|---|---|
| RTOは4時間以内に設定しました | We set the RTO at 4 hours or less. |
| RPOは1時間分のデータ損失を許容します | The RPO allows up to 1 hour of data loss. |
| この目標はビジネス要件に基づいています | This target is based on business requirements. |
| バックアップ頻度をRPOに合わせます | We’ll align the backup frequency with the RPO. |
| RTOを短縮するには追加投資が必要です | Reducing the RTO will require additional investment. |
障害対応・復旧宣言フレーズ
| 日本語 | 英語 |
|---|---|
| インシデントを宣言します | We are declaring an incident. |
| DR手順を開始します | We are initiating the disaster recovery procedure. |
| フェイルオーバーを実行します | We are executing the failover. |
| 復旧が完了しました | Recovery is complete. |
| サービスが正常に戻りました | The service has been restored to normal operation. |
ポストモーテムで使える英語フレーズはエンジニアの英語ポストモーテム術でも確認してほしい。
障害復旧計画書でよく使う英語表現
実務でよく使う英語表現を場面別にまとめた。
DR・BCP基本用語
| 日本語 | 英語 |
|---|---|
| 障害復旧計画書 | Disaster Recovery Plan (DRP) |
| 事業継続計画 | Business Continuity Plan (BCP) |
| 目標復旧時間 | Recovery Time Objective (RTO) |
| 目標復旧時点 | Recovery Point Objective (RPO) |
| フェイルオーバー | Failover |
| フェイルバック | Failback |
| バックアップ・リストア | Backup and Restore |
| 冗長化 | Redundancy |
| ホットスタンバイ | Hot Standby |
ステータス報告フレーズ
| 日本語 | 英語 |
|---|---|
| 現在調査中です | We are currently investigating the issue. |
| 影響範囲を特定中です | We are identifying the scope of impact. |
| RTOの範囲内で復旧できる見込みです | We expect to recover within the RTO target. |
| バックアップからのリストアを開始します | We are initiating a restore from backup. |
| 30分後に状況を更新します | We will provide a status update in 30 minutes. |
まとめ:英語障害復旧計画書は6つのセクションで完成する
英語障害復旧計画書に必要な構成要素を整理した。
- 復旧目標でRTO・RPOをシステムの重要度に応じて設定する
- 復旧手順で「検知→切り替え→データ復旧→確認→宣言→ポストモーテム」の6フェーズを定義する
- 役割・連絡先で「誰が・何の権限で・どう連絡するか」を事前に決めておく
- テスト・メンテナンスで「年1回の演習と定期的な文書更新」を義務化する
テンプレートをコピーして、システムの規模と復旧目標に合わせてフェーズを追加・削除してほしい。特にRTO・RPOの設定と役割分担の明確化が、実際の障害時にパニックを防ぐ最大の対策になる。


コメント