AWS DNS 失準的一夜：US‑EAST‑1 的連鎖反應與產品韌性

YI

20 Oct 2025 — 6 min read

在凌晨的屏幕上，雲變得具象。不是抽象的 SLA 或彈性架構，而是每一次重試、每一條延遲訊息、每一個因「Insufficient Capacity」停住的部署。10/20，美東一區 US‑EAST‑1，AWS 多項服務因 DNS 解析異常引發連鎖反應：DynamoDB API 錯誤、EC2 啟動受阻、Lambda 輪詢 SQS 延遲、EventBridge 與 CloudTrail 事件積壓——一層又一層，像把隱形依賴圖用真實時間顯影。

人性的面：時間感與決策節奏

分散式系統追求冗餘、隔離、故障轉移，但業務對「時間」的依賴不可替代。從 00:11 的「正在調查」，到 03:35 的「DNS 完全緩解」，再到 05:48 的「部分 AZ 可成功啟動 EC2」——每一則更新像心跳：收縮、放鬆；保守、加速。工程師的手在鍵盤上飛行，產品人的腦在情境間切換：立刻停什麼、降級什麼、透明告知什麼。

路由層級的信任考驗

DNS 不是單點，但它是路徑起點。一旦起點不穩，看似獨立的河道——IAM 更新、DynamoDB 全球表、甚至支援票——都可能捲入漩渦。分散式設計不是把方塊拆開，而是找出「共同臍帶」，並為它準備「替代動脈」。

雲出事時，保持清晰

問題不在「雲也會出事」——我們早知；而在「雲出事時如何維持決策的清晰」。例如： — 不指定 AZ 的 EC2 啟動，不只是暫時 workaround，而是長期架構姿態：把選擇權留給系統，讓容量在多 AZ 間自動尋路。 — Auto Scaling Group 橫跨多 AZ，避免把彈性綁死在單一預設；若 ASG 對某些 AZ 有偏好，檢視其背後是否只是歷史偶然。 — Lambda 與 SQS 的耦合無罪，但輪詢延遲提醒我們為「訊息在路上」設計更細緻的可觀測性：不只看消費速率，還要看積壓結構、重試策略、死信佇列是否成了黑洞。 — 事件驅動（EventBridge、CloudTrail）能在積壓期接收新事件，但清 backlog 仍需時間；因此，面向用戶的「時間感知」要內建：哪些近即時、哪些半同步、哪些需明確告知「延遲但不丟失」。

把事件時間線映射到產品運營，就能看見另一條曲線：從「不確定」到「部分恢復」再到「建議的使用姿勢」。系統恢復不只是技術行為，也是溝通行為——我們藉由更新，讓外部能制定策略。當供應方提出建議（例如不指定 AZ 啟動 EC2），需求方的最優解不是照單全收，而是把建議放入自家的「風險地圖」。你的地圖是否標示：哪類工作負載對 AZ 固定性高度敏感？哪類可暫時交由系統挑選？哪類需切向他區或他雲？

事件學中的情感：時間的重量

不是抱怨，而是「時間」如何壓在決策上。02:22「初步緩解」卻仍見重試失敗；03:03「全球依賴美東一區的功能也恢復」；04:08 仍面對 Lambda 輪詢延遲；05:48 終於看到「部分 AZ 能成功啟動 EC2」。這些標記不只是系統狀態，也在調整團隊的心理韌性。好的韌性不是麻痺，而是在不完全資訊中維持節奏：降級、告知、復原、回顧。

四個長期方向

一、架構姿態 — 把「不指定 AZ」升級為基本策略，除非有明確地理或延遲需求。 — 在新建資源流程中加入「區域／可用區偏好評估」，避免無意識地把選擇收斂成單點。 — 為事件驅動的核心管道（EventBridge、CloudTrail、SQS→Lambda）設計「可見的積壓儀表板」與「面向客戶的延遲等級」，讓延遲成為可管理的產品屬性。

二、營運與溝通 — 預備「重大雲事件可用性宣告模板」：什麼可用、什麼降級、什麼不保證，讓公告不再即興。 — 建立「風險對照表」：把雲端建議與自家工作負載分類對照，讓指導語變成行動語。 — 給客服與社群渠道「時間節奏」：預告下一次更新窗口，解釋不同服務的恢復順序與因果。

三、觀測與復原 — 啟用 DNS 健康檢查與快取刷新策略，並把「快取清理」納入運維 runbook，而非臨時補救。 — 對依賴 US‑EAST‑1 的全球功能，設計「跨區域降級替代方案」，在單區受損時維持最低可用。 — 面對容量不足與啟動失敗，建立「延遲佈署隊列」與「回退映像策略」，避免把重試變成噪音。

四、事後學習 — 對齊外部時間軸與內部觀測，找出「我們比官方慢／快看到的信號」，調校告警閾值。 — 在架構審查中加入「共同臍帶」清單：DNS、身份、事件、隊列、儲存、網關——逐一評估單點抗性與替代路徑。 — 以「最小可運行真相」回顧：若再來一次，我們最小需要哪些資訊與儀表，才能做出同樣或更好的決策？

今日事件脈絡

今天的全球性網路服務異常，除 AWS 自家（Amazon.com、Prime Video、Alexa）外，第三方平台如 Coinbase、Perplexity、Signal、Snapchat、Roblox、Fortnite、Canva 等皆回報受影響；部分航空公司（United、Delta）與英國多家銀行用戶亦一度連線困難。

AWS 表示「底層 DNS 問題已完全緩解」，但在完全恢復前仍可能出現節流與事件積壓清理期，並建議遇到端點解析問題的客戶嘗試清除 DNS 快取。若你的系統仍在恢復過程，請把「延遲但不丟失」納入使用者溝通，並調整為不指定 AZ 的啟動姿態，讓容量調度有更大的自由度。逗號之後，是更成熟的系統與更誠實的溝通。