**发布时间:** 2025-04-10
**厂商:** GCP
**类型:** BLOG
**原始链接:** https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations
---
<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] 谷歌人工智能驱动的下一代全球网络:为 Gemini 时代而生
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 解决方案分析
## 解决方案概述
该文档描述了 **Google为Gemini时代构建的AI驱动的下一代全球网络**。随着AI应用的爆发式增长,特别是大规模基础模型的训练和推理,对网络提出了前所未有的挑战。该解决方案的核心目标是重新设计其全球网络架构,以满足AI工作负载在 **可扩展性、可靠性、安全性和运维效率** 方面的极端要求。它解决了传统网络在面对跨地域、超大规模、高并发的AI流量时遇到的瓶颈问题。该方案适用于 **大规模分布式AI模型训练**、**高可用性AI推理服务** 以及需要利用高性能全球骨干网的 **全球企业组网** 场景。其技术原理基于四大全新设计原则:指数级可扩展性、超越“9”的可靠性、意图驱动的可编程性以及自治网络。
## 方案客户价值
- **为AI/ML应用提供极致性能与规模**
- 通过 **Multi-shard(多分片)网络架构** 实现弹性水平扩展,以满足AI基础设施对广域网(WAN)带宽的巨大需求(文档提及2020至2025年其WAN带宽增长了 **7倍**)。
- 将 **广域网(WAN)视为新的局域网(LAN)**,支持跨数据中心园区甚至跨城域的大规模模型训练,将整个大洲视为一个统一的数据中心,从而实现计算资源的有效池化。
- **实现超高水平的可靠性与业务连续性**
- 采用 **多分片隔离** 和 **区域隔离** 设计,每个分片拥有独立的控制、数据和管理平面,将故障影响半径降至最低,提供了可媲美使用多个独立全球ISP的弹性水平。
- **Protective ReRoute** 技术能够在数秒内快速检测并绕过网络故障,将累计中断分钟数减少高达 **93%**,这对于保障昂贵且耗时长的AI训练任务不被中断至关重要。
- **增强的安全与合规控制**
- 基于SDN控制器和标准API构建的 **意图驱动的可编程网络**,允许客户对网络行为进行精细化控制,以满足特定的安全、合规(如数据主权)和性能需求,确保AI模型和动态数据的安全。
- **通过AI驱动的自动化运维提升效率**
- 借鉴Google DeepMind的成果,利用图神经网络(GNN)为网络创建 **数字孪生(digital twin)**,实现从被动响应到主动预测和预防故障的转变。
- 将故障缓解时间从 **数小时缩短至数分钟**,显著降低了运维复杂性和人力投入,从而提升客户的投资回报率。
## 涉及的相关产品
- **Cloud WAN**: 客户用于连接其全球企业并直接利用Google高性能全球网络的核心产品。
- **Tensor Processing Units (TPUs) / Graphics Processing Units (GPUs)**: 运行AI工作负载的专用计算硬件,是驱动该网络架构需求的核心。
- **Gemini**: Google的旗舰级基础模型,其训练和推理过程既是该网络架构的需求驱动者,也是其能力的直接受益者。
## 技术评估
- **优势**
- **架构前瞻性**: 明确将AI作为核心驱动力,提出的“WAN即LAN”、“大陆即数据中心”等理念,精准地把握了大规模分布式计算的未来趋势。
- **创新的水平扩展模型**: **Multi-shard架构** 突破了传统网络垂直扩展的瓶颈,为应对AI流量的爆炸式增长提供了清晰且可行的工程路径。
- **AI for Ops的深度实践**: 将GNN等前沿AI技术应用于网络运维,创建“数字孪生”,实现了从自动化到 **自治网络(Autonomous Network)** 的跨越,这是业界领先的实践。
- **极高的可靠性设计**: 通过分片隔离和快速重路由技术,将可靠性目标提升至“超越9s”的水平,直接解决了AI训练等长周期、高价值任务对网络稳定性的苛刻要求。
- **可能的限制**
- **实现复杂性**: Multi-shard架构和自治网络系统在设计和实现上极为复杂,可能带来新的运维挑战和潜在的未知故障模式。
- **客户采纳门槛**: 尽管Cloud WAN提供了接入方式,但要充分利用其意图驱动的可编程性等高级功能,可能需要客户具备较高的技术能力和对自身应用的深刻理解。
- **生态系统依赖**: 该网络的许多优势与Google Cloud的计算(TPU/GPU)和AI平台(Gemini)深度绑定,客户在享受其网络优势的同时也可能加深对Google生态系统的锁定。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 谷歌 AI 赋能的下一代全球网络:为 Gemini 时代而生
**原始链接:** [https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations](https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations)
**发布时间:** 2025-04-10
**厂商:** GCP
**类型:** BLOG
---
网络
#
谷歌 AI 赋能的下一代全球网络:为 Gemini 时代而生
2025 年 4 月 10 日

##### Bikash Koley
全球网络与基础设施副总裁
##### Google Cloud Next
点播观看 Next 大会的精华内容。
[立即观看](https://cloud.withgoogle.com/next/25?utm_source=cgc-blog&utm_medium=blog&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=cgc-blog-left-hand-rail-post-next&utm_term=-)
从回答搜索查询、播放 YouTube 视频,到处理要求最严苛的云工作负载,25 年来,我们一直在不懈地推动网络技术的边界,构建了一个为全球数十亿用户和企业客户提供支持的全球基础设施,服务于谷歌和 Google Cloud。在人工智能 (AI) 变革力量的驱动下,我们正处于又一个关键时刻,我们的网络也再次演进,以迎接这个新时代的挑战与机遇。
本文将带您深入幕后,了解我们全球网络的演进历程,从支持早期网络搜索,到如今为 [要求严苛的 AI 工作负载提供动力](https://cloud.google.com/blog/products/networking/connect-globally-with-cloud-wan-for-the-ai-era) ,从而将 AI 的益处带给每一个人——无论是个人还是企业。
### **我们网络的演进**
在过去的 25 年里,谷歌网络经历了几个根本性的转折点,形成了三个截然不同的网络时代:
**互联网时代:** 我们的旅程始于互联网时代,当时我们主要致力于为全球用户提供始终如一的高质量体验,无论是在可靠性还是延迟方面——无论是他们使用搜索、地图还是 Gmail。关键创新包括 B2 网络、[Bandwidth Enforcer](https://research.google/pubs/bwe-flexible-hierarchical-bandwidth-allocation-for-wan-distributed-computing-2/) (BwE)、我们首个完全软件定义的骨干网 [B4](https://research.google/pubs/b4-and-after-managing-hierarchy-partitioning-and-asymmetry-for-availability-and-scale-in-googles-software-defined-wan/) 、我们的 [Orion](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/) 软件定义网络 (Software-Defined Network, SDN) 控制器,以及我们的 PB 级 SDN 数据中心网络矩阵 (fabric) [Jupiter](https://research.google/pubs/jupiter-evolving-transforming-googles-datacenter-network-via-optical-circuit-switches-and-software-defined-networking/) 。
**流媒体时代:** 随着 YouTube 和类似服务的出现,流媒体视频成为全球互联网流量的重要组成部分——这一趋势至今仍在持续。我们通过 [Google Global Cache](https://support.google.com/interconnect/answer/9058809?hl=en) 、[Espresso](https://research.google/pubs/taking-the-edge-off-with-espresso-scale-reliability-and-programmability-for-global-internet-peering/) 、[QUIC](https://research.google/pubs/the-quic-transport-protocol-design-and-internet-scale-deployment/) 和 [TCP BBR](https://research.google/pubs/bbr-congestion-based-congestion-control/) 等技术调整了我们的网络,以便在全球范围内提供低抖动和高质量的视频。
**云时代:** 云计算的兴起对弹性、多租户和安全性提出了更高的要求,这激发了诸如 [Andromeda](https://research.google.com/pubs/andromeda-performance-isolation-and-velocity-at-scale-in-cloud-network-virtualization/) 、[gRPC](https://grpc.io/about/) 、[PSP](https://cloud.google.com/blog/products/identity-security/announcing-psp-security-protocol-is-now-open-source?e=48754805) 和 [Swift](https://research.google/pubs/swift-delay-is-simple-and-effective-for-congestion-control-in-the-datacenter/) 等创新。
除了技术创新,我们的网络足迹也必须持续扩展,以便为每一位谷歌用户和客户提供一致、高质量的体验。如今,这个网络覆盖了超过 200 万英里的在用光纤,包括 33 项海底电缆投资,在全球拥有 202 个网络边缘节点和超过 3000 个媒体内容分发网络 (Content Delivery Network, CDN) 节点。它连接了 42 个 Google Cloud 区域和 127 个可用区。我们也是世界上 [对等互联程度最深](https://bgp.tools/rankings/US?sort=peering) 的云服务提供商网络。

### **AI 正在驱动前所未有的网络需求**
正如 Sundar 在他的 [Google I/O 2024 主题演讲](https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era) 中提到的,十多年来,我们一直秉持 AI 优先的方针,在技术栈的每一层都进行投资和创新。从研究和产品到基础设施——我们的全球网络为这些 AI 创新提供动力,并将它们带给世界各地的您。我们 15 个拥有 5 亿用户的产品——其中 7 个拥有 20 亿用户——都由我们的 Gemini 模型提供支持,并且它们都依赖谷歌全球网络来实现我们的最终目标:让 AI 对每个人都有用。我们非常认真地对待这份责任。
AI 时代带来了独特的挑战,需要我们从四个关键角度对网络架构进行根本性的重新思考:
- **广域网 (WAN) 就是新的局域网 (LAN):** 在 AI 时代,我们跨越多个园区甚至多个都市区来训练我们最大的基础模型 (foundation models),以汇集大量的 TPU。无论是对 Gemini 还是对在 Google Cloud 基础设施上构建基础模型的客户来说,对可扩展性的需求从未如此迫切。此外,这些机器学习 (ML) 应用具有独特的流量模式,例如高突发性的 [大象流 (elephant flows)](https://en.wikipedia.org/wiki/Elephant_flow) 。理解和管理这些流量对于高效的网络性能至关重要。
- **AI 要求任何中断都不能产生影响:** AI 基础模型的训练、微调和推理是密集型过程,依赖于宝贵的 GPU/TPU 资源,长时间的中断可能会对它们造成极大的干扰。换句话说,网络中断是完全不可接受的——我们的客户期望的是永不间断的连接网络容量。
- **对安全性和控制的更高需求:** AI 模型及其训练数据必须受到保护,以确保其完整性。此外,不同地区对 AI 模型以及传输中的数据有着不断演变的合规性要求。
- **卓越运营:** 从创建网站可靠性工程 (Site Reliability Engineering, SRE) 原则和在运营中利用 AI/ML 创新,到使用 ML 查找故障根因,我们一直在探索新的方法来在网络运营中实现卓越。同时,线性扩展带来的成本和复杂性挑战促使我们寻求对客户而言既高效又可持续的解决方案。
### **新的网络设计原则与创新**
为了应对这些挑战,我们从头开始重新构想了我们的下一代网络,并确立了四项新的设计原则。

1. **指数级可扩展性:** 我们的网络需要具备处理海量数据和流量的能力与敏捷性,尤其是在服务 AI 流量的关键区域。对可扩展性的需求从未如此强烈。在 AI 时代,**WAN 就是新的 LAN**,**大陆就是数据中心**。
2. **超越 N 个 9 的可靠性:** 行业传统上用“3 个 9”、“4 个 9”或“5 个 9”的可用性来理解可靠性。然而,这越来越不够了,因为那些符合 N 个 9 规范的长尾事件与网络的平均可靠性同样重要。我们的用户和客户期望的是确定性的性能、有限的事件影响范围以及主动和超快速的缓解措施。我们正在踏上“超越 N 个 9”的征程。
3. **意图驱动的可编程性:** 数十亿人使用我们的网络。他们对安全性、合规性、弹性、性能和效率有着独特的要求。为了满足所有这些要求,我们需要一个完全由意图驱动、高度可编程的网络。
4. **自治网络:** 自动化和零接触是过去十年的热门词。为了支持未来十年的需求,我们需要能够以最小的人工干预 7x24 小时大规模运行的自治网络。
在四大设计原则的指引下,我们通过基础性的网络技术进步,构建了我们的下一代全球网络。
**多分片网络 (Multi-shard network):** 我们正在通过多分片网络架构超越传统的垂直扩展限制,实现弹性的水平可扩展性。每个网络分片都是独立的,并支持水平扩展;我们不仅可以在一个分片内扩展网络,还可以扩展网络中的分片数量。这使得 WAN 带宽能够迅速、大幅增长,以支持 AI 基础设施的需求。事实上,从 2020 年到 2025 年,我们的 WAN 带宽惊人地增长了 **7 倍**。
**分片隔离、区域隔离和保护性重路由 (Protective ReRoute):** 我们的每个网络分片都有自己的控制平面、数据平面和管理平面,并且独立于其他分片运行。这种多分片隔离实现了我们这种规模的全球骨干网中罕见的高度弹性;事实上,它达到了通常通过多个独立的全球 ISP 才能实现的弹性水平,而且没有管理多个网络所带来的复杂性。区域隔离最大限度地减少了故障影响,并限制了影响半径。[Protective ReRoute](https://dl.acm.org/doi/10.1145/3603269.3604867) 是一种用于缩短用户可见中断时间的传输技术,它将这一切粘合在一起——它让主机能够在几秒钟内迅速检测并绕过任何网络故障。在我们的网络中部署 Protective ReRoute 后,我们观察到累计中断分钟数减少了高达 **93%**。
**完全意图驱动的细粒度可编程性:** 我们构建了一个高度可编程的网络,拥有 SDN 控制器、标准 API 和通用网络模型,例如多抽象层拓扑表示 (Multi-Abstraction-Layer Topology representation) 或 [MALT](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/) 。这实现了完全由意图驱动的网络控制,使我们能够根据特定的应用需求定制网络,并满足客户的独特需求。例如,这些控制可用于法规遵从和数据主权,包括对动态数据的控制。
**自治网络:** 在过去十年中,我们对网络进行了转型,从事件驱动转向机器驱动,再到现在的自主运营。这一旅程由 ML 驱动,它为我们提供了可操作的情报。受 [Google DeepMind 在谷歌地图中使用图神经网络 (Graph Neural Networks, GNN) 进行精确到达时间预测的工作](https://deepmind.google/discover/blog/traffic-prediction-with-advanced-graph-neural-networks/) 的启发,我们使用 GNN 创建了我们网络的数字孪生 (digital twin)。这个孪生体使我们能够预测和预防中断,快速定位故障及其根因,并优化网络容量规划。因此,我们观察到故障缓解时间从 **几小时缩短到几分钟**,以最小的人工干预提高了我们网络的效率和弹性。
### **一个解锁 AI 全部潜力的网络**
对于云客户而言,谷歌的全球网络提供了部署和有效利用 AI 所需的容量、弹性和规模,通过可靠的网络实现 7x24 小时的应用弹性,通过零信任原则保障安全,以及满足 AI/ML 应用需求的性能。此外,AI 驱动的效率降低了维护工作量,实现了更快的恢复,并提高了投资回报率 (ROI)。从今天开始,通过 [Cloud WAN](https://cloud.google.com/blog/products/networking/connect-globally-with-cloud-wan-for-the-ai-era) ,Google Cloud 客户可以使用谷歌的全球网络连接其全球企业。对于最终用户而言,这意味着更广的全球覆盖、弹性的关键任务应用、保护其数据的零信任安全,以及为高强度实时应用提供的高性能网络。总而言之,这些都有助于确保卓越的用户体验。
这是一个真正激动人心的时刻,我们将继续推动网络技术的边界,并实现在 AI 时代它为我们客户带来的变革潜力。
要了解更多信息,我们邀请您参加我们的 [Google Cloud Next 2025 会议](https://cloud.withgoogle.com/next/25?session=BRK2-133&utm_source=copylink&utm_medium=unpaidsoc&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=reg-is-live-next-homepage-social-share&utm_term=-) ,届时我们将分享更多细节,并展示我们的网络如何继续捍卫谷歌的使命,并推动我们的客户在 Gemini 时代取得成功。敬请关注未来关于驱动谷歌下一代全球网络的突破性创新的博客文章。
发布于
- [网络](https://cloud.google.com/blog/products/networking)
- [Google Cloud Next](https://cloud.google.com/blog/topics/google-cloud-next)
<!-- AI_TASK_END: AI全文翻译 -->