**发布时间:** 2025-11-26
**厂商:** AWS
**类型:** BLOG
**原始链接:** https://aws.amazon.com/blogs/networking-and-content-delivery/announcing-amazon-route-53-accelerated-recovery-for-managing-public-dns-records/
---
<!-- AI_TASK_START: AI标题翻译 -->
[新产品/新功能] Amazon Route 53 推出加速恢复功能,用于管理公有 DNS 记录
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
Amazon Route 53 Accelerated Recovery 是一项旨在提升 **DNS (域名系统)** 管理操作连续性的新功能。其核心目标是为 Route 53 的 **控制平面 (Control Plane)** 提供跨区域的故障转移能力,确保在主区域(`us-east-1`,弗吉尼亚北部)发生服务中断时,用户仍能修改其 **公共托管区域 (Public Hosted Zone)** 中的 DNS 记录。
此前,Route 53 的 **数据平面 (Data Plane)**(负责响应 DNS 查询)已实现全球分布式和 *100% 可用性 SLA*,但其 **控制平面**(负责创建、更新、删除 DNS 记录)仅部署在 `us-east-1` 区域,构成了单点故障风险。该新功能通过将 **公共托管区域** 的配置从主区域 `us-east-1` 异步复制到备用区域 `us-west-2`(俄勒冈),实现了 **控制平面** 的内置故障转移。当主区域中断时,AWS 会自动将 DNS 管理请求路由至备用区域,目标是在 *60 分钟* 内恢复 DNS 记录的变更能力,即实现 *60 分钟* 的 **恢复时间目标 (RTO)**。
该功能主要面向对业务连续性有严格要求的企业,特别是金融、医疗、SaaS 等行业的客户,以及依赖手动 DNS 变更作为灾难恢复一部分或采用即时资源调配模型的组织。它弥补了 AWS DNS 服务在 **控制平面** 韧性方面的短板,是其高可用架构的重要补充。
## 关键客户价值
- **简化并增强灾难恢复能力**:在主区域服务中断期间,企业能够继续修改 DNS 记录以手动将流量切换到备用站点、部署新资源或应对突发状况。这解决了以往在类似事件中无法进行任何 DNS 变更的痛点,为灾难恢复策略提供了关键的灵活性。
- **提供可预测的恢复时间**:明确提出 *60 分钟* 的 **RTO** 目标,为企业的业务连续性计划(BCP)和合规性审计提供了具体、可量化的指标。这使得金融、医疗等受监管行业能够更好地满足监管机构对关键基础设施弹性的要求。
- **降低运维复杂性**:故障转移过程由 AWS 自动触发和管理,用户无需进行任何手动干预。同时,用户继续使用相同的 **Route 53 API** 端点进行操作,无需修改现有的自动化脚本或工具链,极大地降低了在紧急情况下的操作复杂度和出错风险。
- **补充现有高可用方案**:该功能是对现有主动式高可用方案(如 **Route 53 健康检查** 和 **Amazon Application Recovery Controller (ARC)**)的有力补充。后者依赖于 **静态稳定 (Static Stability)** 模式,即预先配置好故障转移逻辑;而 Accelerated Recovery 则专注于应对需要进行计划外、即时 DNS 变更的被动式恢复场景,填补了灾备能力的空白。
## 关键技术洞察
- **控制平面的跨区域复制与自动故障转移**:该功能的核心技术是将 **控制平面** 的状态从单一区域扩展为多区域架构。它通过将 **公共托管区域** 的配置数据从 `us-east-1` 异步复制到 `us-west-2` 来实现。当 AWS 内部监控系统检测到主区域服务中断时,会自动触发 **控制平面** 的故障转移,将 API 流量路由到健康的备用区域。这一机制将 **数据平面** 的高可用设计理念成功应用于 **控制平面**。
- **“搁浅变更 (Stranded Changes)” 的处理机制**:该设计巧妙地处理了故障转移期间的数据一致性问题。在主区域中断但故障转移尚未完成的窗口期内,用户提交的变更请求可能被 API 接收(返回 HTTP 200)但无法成功应用,成为“搁浅变更”。
- AWS 通过 `GetChange` **API** 提供了查询变更状态(`PENDING` 或 `INSYNC`)的能力,将内部复制状态透明化给用户。
- 系统没有尝试复杂的自动数据对账,而是要求用户在故障转移后手动重新提交处于 `PENDING` 状态的变更。这种设计在灾难场景下优先保证了系统的可恢复性和操作的确定性,避免了自动合并可能带来的冲突和风险。
- **API 端点的抽象与路由**:用户始终通过统一的 **Route 53 API** 端点进行交互,无需关心后端 **控制平面** 实际在哪个区域运行。这表明 AWS 在其网络入口层实现了对 API 请求的智能路由,能够根据 **控制平面** 的健康状况动态地将流量导向 `us-east-1` 或 `us-west-2`,为用户提供了无缝的体验。
## 其他信息
- **当前限制**
- 仅支持 **公共托管区域**,不支持私有托管区域。
- 在故障转移至俄勒冈区域期间,无法对启用了该功能的区域进行 **DNSSEC** 的启用或禁用操作。
- 故障转移期间,部分 Route 53 API 将不可用。
- 启用或禁用该功能时,对应的托管区域会被锁定长达数分钟,期间无法进行任何变更。
- 每个 AWS 账户一次只能为一个公共托管区域启用该功能。
- 故障转移期间,由于 API 请求需跨地域路由至俄勒冈,客户端访问 API 的延迟可能会增加。
- **成本与可用性**
- 该功能本身不收取额外费用。
- 已在除 AWS GovCloud 和中国区域外的所有 AWS 商业区域上线。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 宣布推出 Amazon Route 53 加速恢复功能,用于管理公共 DNS 记录
**原始链接:** [https://aws.amazon.com/blogs/networking-and-content-delivery/announcing-amazon-route-53-accelerated-recovery-for-managing-public-dns-records/](https://aws.amazon.com/blogs/networking-and-content-delivery/announcing-amazon-route-53-accelerated-recovery-for-managing-public-dns-records/)
**发布时间:** 2025-11-26
**厂商:** AWS
**类型:** BLOG
---
AWS 宣布 [推出加速恢复功能](https://aws.amazon.com/about-aws/whats-new/2025/11/amazon-route-53-accelerated-recovery-managing-public-dns-records/) ,用于管理 [公共域名系统 (DNS) 记录](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/AboutHZWorkingWith.html) 。这是一项新的 [Amazon Route 53](https://aws.amazon.com/route53/) 功能,旨在弗吉尼亚北部区域 (N. Virginia Region) (us-east-1) 发生服务中断的罕见情况下,为您的 DNS 操作实现 60 分钟的恢复时间目标 (Recovery Time Objective, RTO)。该功能允许您在区域服务不可用期间重新获得进行 DNS 记录变更的能力,从而确保关键工作负载的连续性。
在之前 us-east-1 区域的一次中断事件中,Route 53 的全球分布式数据平面 (data plane) 按照 [100% 可用性服务等级协议 (SLA)](https://aws.amazon.com/route53/sla/) 的设计,持续可靠地响应 DNS 查询,使得已配置的健康检查和自动 [故障转移路由策略 (failover routing policies)](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/dns-failover-types.html) 能够正常运行。客户也可以使用 [Amazon Application Recovery Controller (ARC)](https://aws.amazon.com/application-recovery-controller/) 通过高可用的数据平面 API 来启动故障转移。然而,Route 53 的控制平面 (control plane) 当时仅在 us-east-1 区域运行,导致客户无法进行新的 DNS 记录变更。这意味着企业无法更新其 DNS 配置以应对变化的状况、预置新资源或实施未预先配置的手动故障转移策略。尽管拥有多区域的应用部署和正常的 DNS 解析,但在这些事件中无法创建、更新和删除 DNS 记录,限制了客户的灾难恢复选项。
### 推出用于管理公共 DNS 记录的加速恢复功能
通过为公共托管区域 (public hosted zones) 启用加速恢复功能,客户可以在区域中断发生后的 60 分钟内重新获得进行 DNS 记录变更的能力。加速恢复功能实现了 Route 53 控制平面到俄勒冈区域 (Oregon Region) (us-west-2) 的内置故障转移。这项可选功能可以为任何公共托管区域启用,让您即使在主区域弗吉尼亚北部 (us-east-1) 发生服务中断时,也能继续管理 DNS 记录。
该功能的主要优势包括:
- **简化的灾难恢复**:在区域性事件期间保持对 DNS 基础设施的控制。
- **目标为 60 分钟的 RTO**:该功能旨在让您在区域中断发生后的 60 分钟内能够进行 DNS 变更。这使您能够继续预置基础设施和更新 DNS 记录,而不会出现长时间的延迟。
- **熟悉的 API 端点**:使用您当前已在使用的相同 [Route 53 API 端点](https://docs.aws.amazon.com/general/latest/gr/r53.html) 。
通过启用加速恢复,您可以保持应对变化状况的能力,并实施未预先配置的手动故障转移策略。
加速恢复功能是对 Route 53 本已强大的数据平面的补充,即使在控制平面中断期间,数据平面仍能继续在全球范围内提供 DNS 查询服务。现在,数据平面和控制平面都为您的关键 DNS 基础设施提供了增强的弹性。
### 加速恢复的工作原理
您可以使用不同的功能来实现不依赖于 Amazon Route 53 控制平面的 DNS 弹性。这些功能包括利用 [Route 53 健康检查 (Route 53 Health Checks)](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/dns-failover.html) 、[Amazon Application Recovery Controller (ARC)](https://aws.amazon.com/blogs/aws/introducing-amazon-application-recovery-controller-region-switch-a-multi-region-application-recovery-service/) 以及 [主备切换 (STOP) 模式 (Standby Takes Over Primary (STOP) pattern)](https://aws.amazon.com/blogs/networking-and-content-delivery/creating-disaster-recovery-mechanisms-using-amazon-route-53/) 。这些功能是主动式解决方案,依赖于使用预配置设置、健康检查和预先建立的故障转移机制的 [静态稳定性 (Static stability)](https://aws.amazon.com/builders-library/static-stability-using-availability-zones/) ,从而实现更快的 RTO。然而,对于某些客户来说,这些主动式功能并不总是足以应对计划外的事件。对于那些在弗吉尼亚北部区域 (us-east-1) 发生事件期间,当需要持续进行配置变更时,要求控制平面在进行 DNS 变更方面具有更高冗余性的客户,我们构建了加速恢复功能。
当您在公共托管区域中启用加速恢复时,Amazon Route 53 会将公共托管区域从主区域弗吉尼亚北部 (us-east-1) 复制到俄勒冈区域 (us-west-2)。如果弗吉尼亚北部区域 (us-east-1) 的服务变得不可用,Amazon Route 53 会触发故障转移,并将 DNS 控制平面请求路由到健康的备用区域,而无需您采取任何操作。主区域恢复后,Amazon Route 53 会协调故障恢复过程,参见图 1。
*

*图 1: Amazon Route 53 控制平面和数据平面*
在故障转移期间,受加速恢复保护的公共托管区域不会丢失在中断前已复制到备用区域的现有 DNS 记录。但是,在弗吉尼亚北部区域处于降级状态且故障转移到俄勒冈区域完成之前发送给 Route 53 的 DNS 控制平面变更可能不会被 Route 53 保留。这些正在处理中的变更被称为“*滞留变更 (stranded changes)*”(图 2)。
*

*图 2: 事件时间线及潜在的滞留变更*
在故障转移之前,Route 53 API 可能会返回 HTTP 200 OK 状态,确认您的 DNS 变更已被主控制平面接收。但是,由于弗吉尼亚北部区域的故障,这些变更将不会传播到数据平面,而是“*滞留*”在弗吉尼亚北部区域。即使在区域故障转移期间,您也可以使用 [Route 53 GetChange API](https://docs.aws.amazon.com/Route53/latest/APIReference/API_GetChange.html) 检查滞留变更。
以下 [GetChange API/CLI](https://docs.aws.amazon.com/cli/latest/reference/route53/get-change.html) 调用的示例验证了 ID 为 `CWPIK4URU2I5S` 的 DNS 变更在主区域和备用区域的状态:
`aws route53 get-change --id CWPIK4URU2I5S`
当 DNS 变更已成功复制到备用区域并应用到所有 Route 53 数据平面 DNS 服务器时,GetChange 的 API 响应会显示 INSYNC,否则显示 PENDING。在正常情况下,变更通常在 60 秒内达到 INSYNC 状态。在区域中断期间,变更将保持在 PENDING 状态。这些就是前面描述的滞留变更。当 GetChange API 返回 INSYNC 状态时,您可以确信您的 DNS 客户端将看到最新的 DNS 数据,并且这些变更是持久的,不会在故障转移期间丢失。
在 Route 53 完成到俄勒冈区域的故障转移后,您可以恢复对受加速恢复保护的托管区域进行 DNS 变更,这些变更将在全球范围内应用。任何在中断期间滞留的变更 (处于 PENDING 状态的变更) 必须手动重新提交。请参阅 [加速恢复文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) ,了解如何跟踪和重新提交 DNS 变更。
Route 53 在故障恢复到弗吉尼亚北部区域后无法协调滞留变更。在故障恢复前未重新提交的滞留变更将被丢弃。有关管理 Route 53 记录的更多信息,请参阅 [AWS 文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。
### 开始使用加速恢复
您可以通过使用 [AWS 管理控制台 (AWS Management Console)](https://aws.amazon.com/console/) 、[AWS SDK](https://aws.amazon.com/developer/tools/) 或 [AWS API](https://docs.aws.amazon.com/Route53/latest/APIReference/API_Operations_Amazon_Route_53.html) 编辑现有的公共托管区域来启用该功能。
要为公共托管区域启用加速恢复,请在控制台 (图 3) 的 **Accelerated Recovery** 下单击 **Enable** 选项,然后单击 **Save Changes**。启用加速恢复需要几分钟时间,您将看到公共托管区域的状态变为 **Enabling Accelerated Recovery**。启用加速恢复所需的时间取决于您的公共托管区域的大小。您可以在公共托管区域的 Accelerated recovery 选项卡中或通过 [GetHostedZone](https://docs.aws.amazon.com/Route53/latest/APIReference/API_GetHostedZone.html) API 查看启用过程的状态。在过程结束时,会有长达几分钟的短暂时间段不接受 DNS 变更。过程完成后,您将看到状态变为 **Enabled**。
更多信息,请参阅 [加速恢复文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。
*

*图 3: 公共托管区域的加速恢复选项*
要禁用该功能,请在 **Accelerated Recovery** 下单击 **Disable** 选项,然后单击 **Save Changes**。
您还可以使用 API/CLI 的 AcceleratedRecovery 选项来启用和禁用此功能。
以下是一些示例:
在托管区域 ID 为 `Z04195333A4MFRPAU63KG` 的现有公共托管区域上启用:
`aws route53 update-hosted-zone-features --enable-accelerated-recovery --hosted-zone-id Z04195333A4MFRPAU63KG`
在托管区域 ID 为 `Z04195333A4MFRPAU63KG` 的现有公共托管区域上禁用:
`aws route53 update-hosted-zone-features –-no-enable-accelerated-recovery --hosted-zone-id Z04195333A4MFRPAU63KG`
在托管区域 ID 为 `Z04195333A4MFRPAU63KG` 的现有公共托管区域上检查加速恢复的状态:
`aws route53 get-hosted-zone --id Z04195333A4MFRPAU63KG`
有关故障转移到俄勒冈区域后可用的 API 的完整列表,请参阅 [加速恢复文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。所有 [Route 53 API 操作](https://docs.aws.amazon.com/Route53/latest/APIReference/API_Operations.html) 将在故障恢复到弗吉尼亚北部区域后可用。
### 使用场景
企业维护着一些难以轻松更新以实现全自动故障转移机制的遗留应用程序。替换或迁移这些应用程序通常成本高昂,使得手动更新 DNS 成为其灾难恢复策略中必要的一部分。我们还看到一些企业采用即时预置模型,需要能够根据事件动态创建或更新 DNS 记录。以下是一些我们认为此功能可以带来显著效益的使用场景:
#### 正常运行时间和可用性
金融机构维持着严格的正常运行时间标准,要求关键系统达到特定的恢复时间目标。通过为其公共托管区域启用加速恢复,金融服务提供商即使在区域中断期间也能维持 DNS 操作。这确保了他们可以继续更新 DNS 记录,将客户引导至可用的服务,并实施灾难恢复程序。在目标 60 分钟窗口内进行 DNS 变更的能力为这些组织提供了其业务连续性计划所需的确定性。在区域性事件期间,他们可以继续预置基础设施和更新 DNS 记录,以维持支付处理、网上银行和交易平台等应用和用例的服务可用性。
#### 基础设施管理
大规模运营的软件即服务 (Software as a Service, SaaS) 提供商在管理其全球基础设施时面临着独特的挑战。虽然 Route 53 健康检查和 Application Recovery Controller (ARC) 提供了自动故障转移功能,但这些解决方案在规模扩大时可能难以维护和操作。SaaS 提供商现在可以使用加速恢复来确保他们能够维持对关键 DNS 操作的控制平面访问。这使他们即使在区域性事件期间也能继续其标准的基础设施预置工作流程。对于依赖频繁 DNS 更新作为其基础设施管理策略一部分的持续部署管道来说,此功能尤其有价值。
#### 法规遵从与审计
医疗保健、金融服务和电信等高度受监管行业的组织必须在合规性审计期间展示强大的业务连续性能力。公共托管区域的加速恢复功能为 DNS 弹性提供了可预测恢复时间目标的文档化证据。这有助于满足审计师对关键基础设施组件的要求,并加强组织的整体合规态势。目标为 60 分钟的 RTO 允许合规团队在其业务连续性计划中记录具体的恢复时间框架,从而在审计审查期间提供更大的确定性。
### 注意事项
1. 截至本文撰写时,Route 53 私有托管区域 (private hosted zones) 不支持加速恢复。
2. 截至本文撰写时,当俄勒冈区域作为主控制平面时,无法在启用了加速恢复的区域上启用/禁用 DNSSEC。
3. 在发生中断的情况下,某些 Route 53 API 将不可用,有关在故障转移事件中受影响的 API 列表,请参阅 [文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。
4. 在启用和禁用加速恢复的过程中,您的公共托管区域将被锁定长达 5 分钟。在此期间不能对托管区域进行任何更改。
5. 每个账户一次只能在一个公共托管区域中启用加速恢复。有关错误处理,请参阅 [文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。
6. 在发生中断的情况下,Route 53 API 延迟可能会增加,具体取决于您的地理位置。这是因为控制平面的主区域弗吉尼亚北部将使用俄勒冈区域。
### 结论
随着公共托管区域加速恢复功能的推出,您现在有了一种可靠的方法来确保在区域中断期间的 DNS 管理连续性。该功能旨在为您的 Route 53 控制平面操作提供可预测的 60 分钟恢复时间目标,解决了业务连续性规划中的一个关键方面。用于管理公共托管区域中 DNS 记录的加速恢复功能现已在除 [AWS GovCloud](https://aws.amazon.com/govcloud-us/) 和 [中国区域 (China Regions)](https://www.amazonaws.cn/en/about-aws/china/) 之外的 AWS 商业区域提供。使用此功能不收取额外费用。要了解有关加速恢复的更多信息,请参阅 [Route 53 文档](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/accelerated-recovery.html) 。如果您对本文有任何疑问,请在 [AWS re:Post](https://repost.aws/) 上发起一个新帖子或联系 [AWS Support](https://aws.amazon.com/contact-us/) 。
## 关于作者

### Gautham Gavini
Gautham Gavini 是一名专注于网络和安全的高级技术客户经理。他热衷于帮助客户在 AWS 中构建和交付安全、可扩展且有弹性的架构。

### Gerardo Vazquez
Gerardo 是 AWS 的一名高级合作伙伴解决方案架构师,为加拿大的系统集成商提供支持。Gerardo 热衷于帮助 AWS 合作伙伴发展其业务实践并促进业务成功,同时还协助加拿大公司采用新的网络技术来构建强大的云基础。工作之余,他喜欢与妻子共度美好时光和踢足球。
<!-- AI_TASK_END: AI全文翻译 -->