[解决方案] AWS 如何利用自动化流量工程优化全球连通性

**发布时间:** 2025-11-24 **厂商:** AWS **类型:** BLOG **原始链接:** https://aws.amazon.com/blogs/networking-and-content-delivery/how-aws-improves-global-connectivity-via-automated-traffic-engineering/ ---  [解决方案] AWS 如何利用自动化流量工程优化全球连通性   # AWS 通过自动化流量工程改善全球连接性 ## 解决方案概述该解决方案详细阐述了 **AWS 入向流量工程 (Inbound Traffic Engineering, Inbound TE)** 的方法，旨在自动管理和优化从外部网络进入 AWS 全球网络的巨大流量。面对流量指数级增长、网络链路容量受限、DDoS 攻击以及外部网络次优路由等挑战，传统的网络管理方式难以应对。AWS 开发了一套自动化的 Inbound TE 系统，通过 **软件定义网络 (SDN)** 控制器和智能路由策略，主动识别并解决网络拥塞、高延迟和流量不均衡等问题，从而保障用户关键应用和工作负载的可用性、韧性和高性能，无需用户自行实施复杂的网络编排。 ## 实施步骤 1. **网络遥测与分析** - 解决方案的核心是一个 **SDN 控制器**，它持续分析网络遥测数据，以识别潜在的流量改善机会，如链路拥塞、延迟增加或流量不平衡。 2. **决策与策略生成** - 基于分析结果，控制器智能决策需要引导哪些 **IP 前缀 (prefixes)** 以及应用何种流量工程动作。系统旨在以最小化的前缀调整来解决问题，避免对网络造成大的扰动。 3. **流量引导执行** - 控制器通过 **BGP (边界网关协议)** speakers 将路由注入到传输层设备，从而引导流量避开过载链路。主要执行两种 TE 动作： - **AS PATH Prepending (AS 路径前置):** 通过人为增加 AS 路径长度，使某条路由的优先级降低。这是一种“软”建议，其效果取决于对等网络的策略是否遵循该建议。 - **Prefix Withdrawal (前缀撤回):** 从拥塞的会话中完全撤回某个前缀，强制对等网络通过备用路径重新路由流量。这是一种更强力的引导方式。 4. **闭环反馈与安全回滚** - 系统以一个 **封闭的反馈循环** 运行。它会主动监控流量引导后的变化，检测任何由变更引起的网络损伤。如果观察到负面影响，系统会自动 **回滚** 操作，确保所有缓解措施既有效又安全。这种原子化、快速迭代和自动回滚的机制解决了 Inbound TE 固有的非确定性风险。 ## 方案客户价值 - **提升网络性能与可用性** - 通过主动预防和快速缓解网络拥塞，显著降低数据包丢失和延迟，为终端用户提供更稳定、无缝的体验。 - **显著缩短故障缓解时间** - 针对私有网络互连 (PNI)、传输网络和互联网交换点的网络问题，实现了 _缓解时间缩短90%_ 的改进，大幅减少了对用户业务的影响。 - **自动化运维，降低用户复杂性** - Inbound TE 系统在后台静默运行，每月可预防超过一千起拥塞事件。用户无需设计复杂的网络架构来保证工作负载的连接不中断，AWS 自动为其构建和运维一个可靠的网络。 - **有效应对多样化网络事件** - 该系统能够有效处理由业务有机增长（如云间工作负载、大规模数据迁移、AI/ML 训练）或异常流量模式（如DDoS攻击、流量不平衡）引发的各类网络问题。 ## 涉及的相关产品 - 该解决方案是 **AWS 全球网络基础设施 (AWS Global Network Infrastructure)** 的一项核心能力，并非一个独立售卖的产品。其价值体现在所有使用 AWS 服务的客户体验中，为 AWS 云上运行的各类应用提供了底层的网络可靠性保障。 ## 技术评估 - **优势** - **高度自动化与智能化:** 采用 SDN 控制器进行数据驱动的决策，取代了传统依赖网络工程师手动干预的“试错”模式，实现了更快、更一致的响应。 - **安全可靠的设计:** 闭环反馈和自动回滚机制是关键亮点，它解决了 Inbound TE 因外部网络不可控而带来的高风险和不确定性，确保了变更的安全性。 - **策略灵活性:** 同时支持 AS PATH Prepending 和 Prefix Withdrawal 两种手段，可以根据不同场景和对等网络的情况选择最合适的流量引导策略。 - **可能的限制** - **外部依赖性:** Inbound TE 的效果部分依赖于外部对等网络的路由策略。例如，AS PATH Prepending 动作可能不会被所有对等网络完全遵循。 - **内在的复杂性:** 文中指出，Inbound TE 本质上是“非确定性的”，因为无法完全控制或透视源网络。AWS 的方案是通过快速、小范围、可回滚的迭代来管理这种风险，而非彻底消除它。   # AWS 如何通过自动化流量工程提升全球连接性 **原始链接:** [https://aws.amazon.com/blogs/networking-and-content-delivery/how-aws-improves-global-connectivity-via-automated-traffic-engineering/](https://aws.amazon.com/blogs/networking-and-content-delivery/how-aws-improves-global-connectivity-via-automated-traffic-engineering/) **发布时间:** 2025-11-24 **厂商:** AWS **类型:** BLOG --- 在我们之前关于解读 Amazon Web Services (AWS) 数据传输服务的 [文章](https://aws.amazon.com/blogs/networking-and-content-delivery/demystifying-aws-data-transfer-services-to-build-secure-and-reliable-applications/) 中，我们讨论了如何将我们的全球网络基础设施设计得高度可用、有弹性且性能卓越。在本文中，我们将探讨 AWS 的入向流量工程 (Inbound Traffic Engineering, TE) 方法。AWS 的全球网络基础设施以巨大的规模运行。2024 年，AWS 从外部网络、中转提供商和互联网交换中心接收了超过 150 EB 的数据，以支持我们用户的关键应用和工作负载。入向 TE 是我们网络管理工具集中的一个关键组成部分，它确保了这些关键应用和工作负载能够不间断地运行。入向 TE 是我们代表用户执行的一项工作，用户无需自己实施复杂的网络编排来降低其 AWS 资源面临的入向流量风险。我们的入向 TE 系统在解决性能和可用性问题、改善最终用户体验方面发挥了关键作用。因此，我们针对私有网络互连 (Private Network Interconnects, PNIs)、中转链路和互联网交换中心的缓解时间实现了 90% 的改进，显著减少了用户受影响的时间。入向 TE 系统还使运营商能够解决流量不均衡、延迟增加、容量型分布式拒绝服务 (Distribute Denial of Service, DDoS) 攻击以及外部网络次优路由等问题。在某些情况下，对等网络无法在同一站点或城域内的所有会话中均匀分配流量，导致某些会话被过度使用，而其他会话则利用率不足。入向 TE 系统能够动态地在所有可用会话间平衡流量，确保了容量的充分利用，并最终带来更好的用户体验。在解决高延迟场景 (例如跨太平洋中断或对等网络骨干拥塞) 时，该系统也证明了其有效性，它通过将流量重新路由到最近的 [AWS 区域 (AWS Region)](https://aws.amazon.com/about-aws/global-infrastructure/regions_az/) 来解决问题。我们很高兴能与您分享更多关于我们如何运营全球网络基础设施的这一方面，但首先，我们可以探讨一下互联网对等互联所面临的一些挑战。 ## 在“网络之网”中进行对等互联互联网是一个由众多网络组成的庞大互联系统，通常被称为“网络之网”。各种类型的网络彼此对等互联，使全球的计算机能够进行通信和信息交换。尽管网络数量及其规模在持续扩大，但网络之间的带宽增长速度相比之下通常较慢。数字世界的进步和云间传输的快速增长意味着这些网络之间的流量正呈指数级增长，给这些受限的网络间链路带来了更大压力。AWS 已经建立了 [一套流程来评估和认证](https://aws.amazon.com/peering/) 那些希望在全球对等互联位置与 AWS 对等互联的合作伙伴网络。目前，AWS 在全球范围内与超过五千个其他网络进行对等互联。要了解更多关于 AWS 如何采取措施提高网络对等互联带宽和性能的信息，请阅读我们详细介绍 [通过 400 GbE 连接扩展 AWS 互联网对等互联](https://aws.amazon.com/blogs/networking-and-content-delivery/growing-aws-internet-peering-with-400-gbe/) 计划的文章。 ![](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/11/17/Picture1-13.png) 图 1: 入向 TE 控制器与中转路由器进行对等互联当对等互联的网络在其互连点出现高使用率时，可能会导致用户体验到延迟增加、丢包和速度下降。尽管增加更多对等互联容量似乎是显而易见的解决方案，但这通常是缓慢、昂贵且操作复杂的过程。这需要设备升级、漫长的采购周期以及各方之间广泛的协调。因此，许多网络管理者选择优化其现有容量，以更好地满足用户需求。流量工程技术在确保可用带宽得到充分利用方面发挥着关键作用，并在此过程中最大化容量扩展的投资回报。这些方法使得流量能够更高效、更可靠地在互联网上传输，无需进行昂贵的基础设施升级即可提高性能。 ## 出向 TE 和入向 TE 有何区别？对于出向 TE，网络通常控制从源头到出口点的整个路径，并可以将流量置于其网络内的最佳路由上。例如，AWS 在其边界网络中设计并部署了出向控制器，通过主动平衡对等容量间的流量，同时寻找延迟最低的路径来防止拥塞。尽管 AWS 的出向网络控制器为支持用户应用提供了稳定的网络性能，但现有的出向 TE 方法在管理入向流量方面效果不佳。对于入向 TE，网络管理者在缓解入向拥塞和性能相关问题时面临更大的模糊性和不确定性。入向 TE 带来了独特的挑战，这主要是因为对源网络以及最终用户与 AWS 网络之间的中间基础设施的控制或可见性有限。这种可见性的缺乏使得流量行为难以预测，关于路由的决策可能会产生意想不到的后果，例如无意中将过多流量压在单一路径或互连点上。入向 TE 本质上是非确定性的，因此比出向 TE 更复杂、风险更高。 ## 为什么需要自动化的入向 TE？入向事件可能由用户流量的自然增长导致拥塞引起，例如云间工作负载、大规模数据迁移、备份和恢复操作，或人工智能 (AI) 和机器学习 (ML) 训练工作负载。它们也可能由非自然流量模式引起，例如入向 DDoS 攻击，或来自其他网络提供商的不均衡或次优流量分布。入向事件的类型和严重程度各不相同，这常常使得即使是经验丰富的运营商也很难确定最佳行动方案。在选择各种流量导向策略之前，运营商必须考虑多个因素，例如流量来源、吞吐量突然飙升的原因以及受影响位置的中转和对等互联的当前状态。这种对运营商判断的依赖，加上运营商驱动的 TE 所具有的“试错”性质，导致许多网络 (甚至是大型网络) 在采用自动化解决方案来应对入向事件方面进展缓慢。自动化入向 TE 的挑战因对远程网络拓扑的可见性有限而进一步加剧，这使得准确建模和预测路由变化的影响变得困难。对运营商判断的依赖和自动化的缺乏导致了互联网用户面临的缓解时间 (time-to-mitigation, TTM) 不一致和/或过长。在这些事件期间，用户会经历丢包和明显的延迟增加，例如往返时间的飙升。 ## AWS 如何实现入向 TE 为了解决入向 TE 问题，AWS 在所有 AWS 商业区域开发了一套自动化工具和运营商驱动的流程，如下图所示。这个新工具集包括软件定义网络 (software-defined networking, SDN) 控制器，它分析网络遥测数据以识别流量改善的机会，并决定要导向哪些前缀以及应用哪些 TE 操作。它还包括将路由注入中转层设备的 BGP speaker，以将流量从过载的链路上引开，以及允许运营商影响控制器行为的 API。该工具集还提供半自动化工作流，以便运营商可以在全自动 TE 可能不安全的边缘情况下手动干预。这些运营商驱动的流程对于帮助我们在推进进一步自动化之前，在一系列真实场景中迭代验证我们的导向策略至关重要。这种方法让我们对用户和对等网络的风险有了更深入的理解，从而能够构建一个更安全、数据驱动、永远在线的入向 TE 系统，用更快、更一致、更可靠的流量工程操作取代了旧的缓解方法。 ![](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/11/17/Picture2-9.png) 图 2: 入向 TE 设计该控制器支持两种类型的 TE 操作。第一种是自治系统 (Autonomous System, AS) 路径前置，它通过人为增加 AS 路径长度来降低路由的优先级。虽然 AWS 实施了此操作，但对等或下游网络可能由于其内部配置而不会遵循前置的路径。在第二种入向 TE 操作中，控制器会从拥塞的会话中完全撤回该前缀，迫使对等网络通过备用路径重新路由流量。这对于拥有自身拥塞缓解策略的对等网络非常有用，它们可能会要求我们避免某些可能干扰其路由逻辑的操作。为了应对入向 TE 的非确定性，该控制器被设计为在网络中进行快速和原子性的更改，仅导向所需的最少数量的前缀，并快速迭代直到问题解决。它在一个闭环反馈中运行，主动监控流量转移，检测由更改引起的任何损害，并在观察到负面影响时自动回滚操作。这确保了缓解措施既有效又安全。 ## 入向 TE 的影响 AWS 在这一坚实的基础上继续发展，进一步缩短响应时间并扩展我们自动化流量工程系统的能力。入向 TE 在巨大的规模下静默运行，每月在 AWS 全球网络中预防超过一千次拥塞事件。我们的用户无需设计复杂的架构来确保其工作负载不间断地传输。我们构建并运营一个可靠的网络来为他们完成这项工作。在问题影响性能之前主动检测和缓解，使我们能够为所有人确保更稳定和无缝的体验。我们的使命很明确：让互联网更快、更安全。 ## 结论在本文中，我们解释了 AWS 如何通过入向 TE 管理和响应事件。我们强调了我们独特的方法，它如何改善了我们的响应时间，以及代表用户执行此操作的好处。在未来的文章中，我们将讨论如何自动化出向 TE，以确保从 AWS 向互联网发送流量的用户工作负载获得最佳体验。如果您对本文有任何疑问，请在 AWS re:Post 上发起一个新话题，或联系 AWS Support。 ## 关于作者 ![Reza Hedayati](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/11/18/IMG_0094.jpg) ### Reza Hedayati Reza 是 Amazon Web Services 的一名软件开发经理。他在 AWS 基础设施部门从事互联网边缘服务方面的工作，专注于软件定义网络控制器和运营工具，为客户在 AWS 中访问其资源时提供无缝体验。 ![Camden Forgia](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/11/18/profile-photo_1.jpg) ### Camden Forgia Camden Forgia 是 Amazon Leo 的一名首席产品经理，专注于利用 Amazon Leo 的低地球轨道卫星星座提供最佳的连接体验。此前，他是 Amazon Web Services (AWS) 的一名产品经理，专注于以新颖的方式为 AWS 客户构建和推出交付 AWS 全球网络基础设施的产品。他曾是 AWS Data Transfer Services 和 AWS Data Transfer Terminal 等外部服务的产品经理。Camden 在半导体、云计算到卫星网络等科技公司拥有超过 10 年的运营和产品管理经验。