[解决方案] Uber 现代化边缘网络：提升网络性能与效率的新方法

**发布时间:** 2025-08-14 **厂商:** GCP **类型:** BLOG **原始链接:** https://cloud.google.com/blog/products/networking/ubers-modern-edge-a-paradigm-shift-in-network-performance-and-efficiency ---  [解决方案] Uber 现代化边缘网络：提升网络性能与效率的新方法   # 解决方案分析 ## 解决方案概述该方案详细阐述了 **Uber** 如何与 **Google Cloud** 合作，对其全球边缘网络架构进行现代化改造，以解决原有架构导致的 **次优路由、高延迟和高昂运维成本** 问题。 - **解决的问题:** Uber原有的边缘架构在Google Cloud的16个区域部署了基于开源 **Envoy** 代理的虚拟机（VM）集群。这种设计虽旨在将服务贴近用户，但实际上常常导致用户请求在到达Uber数据中心前，经过不必要的跨区域跳转，从而增加了网络延迟，损害了用户体验，并带来了高昂的运维成本和复杂性。 - **核心目标:** 创建从全球用户到Uber混合云（包含本地数据中心和多云环境）后端服务的最直接、最低延迟的路径。 - **技术原理:** 新架构摒弃了分布式Envoy虚拟机集群，转而采用 **Google Cloud的混合网络端点组（Hybrid NEGs）**。流量通过 **Google全球外部应用负载均衡器** 进入Google网络，该负载均衡器由 **Cloud Armor** 提供DDoS防护并由 **Cloud CDN** 提供缓存。随后，流量利用Hybrid NEGs和 **Cloud Interconnect**，直接路由至Uber的本地基础设施。这种方式充分利用了Google优化的全球骨干网来处理长途流量传输，从而消除了不必要的中间代理层和网络跳数。 ## 实施步骤 1. **架构验证:** Google Cloud的网络专家通过其对负载均衡器架构的深入理解，帮助Uber验证了“减少代理位置反而能提升性能”这一关键假设，证明了移除分布式Envoy VM集群的可行性。 2. **性能建模:** 在全面迁移之前，Google工程师基于Uber的初步测试数据，进行了生产规模的性能结果建模。这为Uber提供了继续推进项目的信心，并节省了大量的基准测试时间。 3. **架构重新设计与实施:** 核心是采用 **Hybrid NEGs** 简化设计。Uber的本地服务终结点被注册为Hybrid NEG，并直接挂载到Google全球外部应用负载均衡器的后端。 4. **流量迁移与旧架构退役:** 在为期10个月的紧密合作后，Uber成功将99%的边缘流量迁移至新架构，并最终停用了整个边缘Envoy虚拟机集群。 ## 方案客户价值 - **显著的成本降低:** - 通过完全移除边缘的Envoy虚拟机（VM）集群，直接节省了大量的计算资源和相关的维护成本。 - **性能与用户体验提升:** - 流量路径得到极大简化，为Uber的移动应用用户带来了显著的延迟改善：**P50延迟降低2.6%，P99延迟降低10%**。 - 对于Uber这类实时服务，毫秒级的延迟改进直接转化为更快的服务响应和更优的用户体验。 - **运维简化:** - 停用庞大的VM集群，极大地降低了基础设施的管理和编排复杂性，减少了工程团队的运维负担。 - 通过采用更标准化的Google Cloud原生服务，提高了整体架构的可靠性。 ## 涉及的相关产品 - **Global External Application Load Balancer:** 作为流量的全球入口，提供L7负载均衡、SSL卸载等功能。 - **Hybrid Network Endpoint Groups (NEGs):** 方案的核心组件。它允许将位于Google Cloud之外（如本地数据中心）的IP:Port端点注册为负载均衡器的后端，是实现混合云部署的关键。 - **Cloud Interconnect:** 提供从Google Cloud到Uber本地数据中心的高性能、低延迟的私有物理连接。 - **Google Cloud Armor:** 部署在负载均衡器前端，为应用提供企业级的DDoS攻击防护和WAF功能。 - **Cloud CDN:** 用于缓存静态内容，加速全球用户的内容访问。 ## 技术评估 - **技术先进性:** 该方案是 **混合云网络架构** 的一个先进范例。它巧妙地将云服务商强大的全球骨干网和原生负载均衡能力，与企业的本地数据中心无缝集成。相较于在云端自行构建和管理代理集群的传统方式，这种利用托管服务（Managed Service）的模式代表了更现代化、更高效的架构思想。 - **方案优势:** - **性能可预测性:** 充分利用Google的全球优化网络处理长途流量，避免了公共互联网路由的不可预测性，从而获得了更稳定、更低的端到端延迟。 - **责任下沉:** 将复杂的代理层管理、扩展和维护工作下沉到云平台，使Uber的工程团队能更专注于核心业务逻辑的开发。 - **成本效益:** 从“始终在线”的VM集群模式转变为按需使用的云原生服务模式，成本结构更为优化。 - **适用范围:** 此解决方案非常适用于业务遍布全球、且拥有重要本地数据中心或多云资产的企业。特别是对于在线出行、游戏、金融交易等对网络延迟和可靠性有极高要求的实时应用场景，该架构具有巨大的参考价值。   # Uber 的现代化边缘：一种提升网络性能与效率的新方法 **原始链接:** [https://cloud.google.com/blog/products/networking/ubers-modern-edge-a-paradigm-shift-in-network-performance-and-efficiency](https://cloud.google.com/blog/products/networking/ubers-modern-edge-a-paradigm-shift-in-network-performance-and-efficiency) **发布时间:** 2025-08-14 **厂商:** GCP **类型:** BLOG --- 网络 # Uber 的现代化边缘：一种提升网络性能与效率的新方法 2025 年 8 月 14 日 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/Uber.max-2500x2500.jpg](https://storage.googleapis.com/gweb-cloudblog-publish/images/Uber.max-2500x2500.jpg) ##### Noah Goldman Uber, 资深软件工程师 ##### Gopinath Balakrishnan Google Cloud, 客户工程师 ##### 试用 Gemini 2.5 我们最智能的模型现已在 Vertex AI 上提供 [立即试用](https://console.cloud.google.com/vertex-ai/studio/freeform) 想象一下这个场景：你在里斯本叫了一辆 Uber，但你的请求在确认行程前，却绕道马德里、伦敦和弗吉尼亚，进行了一次“风景观光之旅”。在 Uber 与 Google Cloud 携手踏上重塑全球边缘网络运作方式的宏伟征程之前，这曾是数百万用户的日常。 Uber 的业务遍及六大洲，连接着数百万的乘客和司机，每秒需要处理超过 10 万次并发行程和超过 100 万次 HTTP 请求。在如此庞大的规模下，每一毫秒都至关重要。当 Uber 现有的边缘架构出现次优路由路径时，他们与 Google Cloud 合作，重新设计了其全球网络方案。结果是：延迟显著改善，并节省了数百万美元的成本。 ### **挑战：次优路由、低效架构与高昂的运维开销** Uber 此前在 Google Cloud 上的边缘架构，使用了在 16 个区域的虚拟机 (Virtual Machines) 上运行的开源 Envoy 代理实例。尽管该架构旨在通过将服务部署得更靠近用户来降低延迟，但它常常会产生次优的路由路径，流量在到达 Uber 的数据中心前，会经过多个不必要的区域跳转。额外的网络传输增加了延迟，降低了 Uber 客户所期望的用户体验。 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_o84ENek.max-1900x1900.png](https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_o84ENek.max-1900x1900.png) Uber 旧版 GCP 边缘流量图这个设置带来了几个挑战： - **运维复杂性：** 管理和编排庞大的虚拟机 (VM) 机群不仅繁琐，而且偏离了 Uber 的内部标准。 - **延迟收益递减：** 与最初的设想相反，在全球众多区域运行 Envoy 并未为所有用户带来持续的延迟改善。事实上，对部分用户而言，这反而引入了不必要的网络跳转。 - **高昂的运营成本：** 维护一个庞大的全球分布式基础设施带来了巨额的成本。 ### **解决方案：使用混合 NEG 实现直接路由** 目标非常明确：为用户创建一个直达 Uber 跨本地和多云环境的后端服务的路径。具体方法是，放弃原有的分布式 Envoy VM 方案，转而采用 Google Cloud 的混合网络端点组 (Hybrid Network Endpoint Groups, NEGs)。 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Z24QX7X.max-1100x1100.png](https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Z24QX7X.max-1100x1100.png) 简化/现代化的 Uber GCP 边缘流量图这个新架构由 Uber 和 Google 工程师历时 10 个月合作开发而成，它将流量从 Google 的全局外部应用负载均衡器 (Global External Application Load Balancer) 直接路由到 Uber 的本地基础设施。该负载均衡器前端由 Google Cloud Armor 提供 DDoS 保护，并由 Cloud CDN 提供缓存功能，后端则通过 Cloud Interconnect 连接。迁移到基于混合 NEG 的负载均衡器后，效果立竿见影。通过移除所有边缘 VM，流量路径的效率显著提升，使得 Google 的全球网络能够通过优化的通道处理长途传输。这一转变使得第 50 百分位的延迟改善了 2.6%，第 99 百分位的延迟改善了 10%，直接提升了服务的响应速度。 ### **成果：显著的改进** 此次迁移在三个关键领域取得了实质性进展。在验证设计并将 99% 的边缘流量切换后，该项目实现了： - **显著的成本降低：** 移除整个边缘 Envoy VM 机群带来了巨大的成本节约。 - **性能与用户体验提升：** 简化的流量路径为 Uber 移动应用用户的延迟带来了 **p50 下 2.6% 和 p99 下 10%** 的改善。 - **简化的运维：** 淘汰边缘 VM 降低了运维开销，并通过更标准化的工具提升了可靠性。 > “在 Uber，每一毫秒都定义着数百万用户的体验。通过与 Google Cloud 合作，利用混合 NEG 重构我们的全球边缘网络，我们为服务创建了一条更直接、延迟更低的路径。这不仅提升了当前的用户体验，也为我们下一代 AI 应用奠定了必要的高性能基础，同时还显著降低了我们工程团队的运维负担。” - Harry Liu, Uber 网络总监。 ### **对企业团队的关键启示** Uber 的边缘架构转型展示了专注的技术合作所能取得的成就。通过用一套基于 Google 全球网络和混合 NEG 的精简架构取代原有的分布式 Envoy VM 机群，Uber 在性能、成本和可靠性方面都取得了显著的提升。通过 Uber 和 Google 工程师的紧密合作，这次迁移在不到一年的时间内取得了成功。关键的成功因素包括： - **架构验证：** Google 对其负载均衡器架构的深刻见解帮助验证了这样一个观点：减少代理位置可以提升性能、降低运维开销。 - **性能建模：** Google 工程师根据 Uber 的初步测试结果，对其在生产规模下的表现进行了建模，这节省了基准测试的时间，并为项目的推进提供了信心。 - **简化设计：** 混合 NEG 消除了在 Google 边缘部署 Envoy 代理 VM 的需求。发布于 - [网络](https://cloud.google.com/blog/products/networking) - [数据分析](https://cloud.google.com/blog/products/data-analytics) - [客户案例](https://cloud.google.com/blog/topics/customers)