障害を想定した設計(Resilient by Design)。自動復旧 > 手動復旧。 サーバーレスの力で運用工数80%削減。
障害を想定した設計
自動復旧 > 手動復旧
対応が必要なアラートだけ
運用工数80%削減
99.9%
システム稼働率
Cloudflare Analytics
200ms以下
API応答時間(P95)
Sentry Performance
99.99%
ファイルアップロード成功率
エラーログ
1時間以内
障害復旧時間(MTTR)
インシデントログ
エラー/パフォーマンス
インフラ
認証
| 重大度 | 通知先 | 対応SLA |
|---|---|---|
| P1(緊急) | Slack + 電話 | 15分以内 |
| P2(高) | Slack | 1時間以内 |
| P3(中) | Slack | 当日中 |
| P4(低) | 日次レポート | 次スプリント |
| 条件 | 重大度 |
|---|---|
| エラー率 > 5% | P1 |
| P95 > 3秒(5分継続) | P2 |
| Firebase Auth障害 | P1 |
| R2アップロード失敗 | P2 |
| 工場SFTP接続失敗 | P2 |
Closed → Open
5回連続失敗で遮断
Open → Half-Open
30秒後に回復確認
Half-Open → Closed
成功で復旧
| 対象 | 方法 | 保持期間 | RTO |
|---|---|---|---|
| Firestore | 自動バックアップ | 7日 | 1時間 |
| D1 | 日次スナップショット | 30日 | 30分 |
| R2(画像) | なし(設計上) | - | - |
R2にバックアップがない理由:原本画像は180日後に自動削除(R2 Lifecycle)。元画像はユーザーのデバイスに存在。注文完了後の再アップロードで対応可能。
| 項目 | 従来サーバー | サーバーレス |
|---|---|---|
| OS/ミドルウェアパッチ | 月次作業 | 不要(自動) |
| スケーリング | 手動設定 | 自動 |
| 深夜/休日対応 | オンコール | 自動復旧 |
| インフラ監視 | 24/7 | 不要 |
| ディスク容量管理 | 監視必要 | 不要 |
| SSL証明書更新 | 手動 | 自動 |
結果: 運用工数 80%削減
設定不要で月間100万件まで対応可能
| 項目 | アラート閾値 |
|---|---|
| Cloudflare Workers | 1000万リクエスト/日超過 |
| R2ストレージ | 100GB超過 |
| Cloud Run | ¥5,000/月超過 |
| Firebase Auth | 10万MAU超過 |