**发布时间:** 2025-04-23
**厂商:** GCP
**类型:** BLOG
**原始链接:** https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive
---
<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] 深入解析谷歌 AI 时代全球网络背后的技术
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 解决方案分析
## 解决方案概述
该文档详细阐述了 **Google 为应对 AI 时代** 设计的下一代全球网络架构。其核心目标是解决 AI 应用带来的 **网络容量爆炸性增长**、独特的流量模式(大规模训练与推理)、对极致可靠性的严苛要求、以及数据主权等安全与控制需求。传统网络架构在扩展性、可靠性和运维成本上面临巨大挑战,为此 Google 提出了一个基于 **指数级可扩展性**、**超越9个9的可靠性**、**意图驱动的可编程性** 和 **自治网络** 四大原则的全新网络范式。其技术原理是将数据中心网络的设计思想(如水平扩展)应用于广域网(WAN),并深度融合 SDN 与 AI/ML 技术,实现一个更具弹性、智能和自我修复能力的全球网络基础设施,支撑 AI 时代的关键业务。
## 技术实现
1. **指数级可扩展性:多切片网络 (Multi-shard Network)**
- **技术原理**:摒弃传统的单体网络垂直扩展模式,采用 **多切片网络** 架构。将全球网络构建为多个独立的、可水平扩展的“切片”(Shard)。
- **实现方式**:当需要更多容量时,可以通过扩展现有切片(Scale-up)或增加新切片(Scale-out)来满足需求。每个切片都拥有独立的控制、数据和管理平面,从而极大地限制了任何潜在问题(如配置错误、软件缺陷)的影响范围,避免了单点故障演变为全局性灾难。
2. **超越9个9的可靠性:多层级隔离与主动恢复**
- **多切片与区域隔离**:利用多切片架构的天然隔离性,并实施 **区域隔离 (Region isolation)**,将区域核心流量限制在域内,通过网关强制执行策略,防止区域性事件扩散影响整个网络。
- **多厂商策略**:得益于 **OpenConfig** 等开放 API 和模型,Google 可以在不同切片中部署不同供应商的硬件,避免因单一厂商的软硬件漏洞导致整个网络瘫痪。
- **Protective ReRoute 技术**:这是一种创新的主机端流量恢复技术。与传统依赖路由器进行故障修复不同,主机(Host)能够主动、智能地检测网络路径异常,并在毫秒级(O(RTT))时间内通过修改数据包头中的几个比特位,将流量 **即时重路由** 到同一切片或不同切片中的健康备用路径。
3. **意图驱动的可编程性:全面的软件定义网络 (SDN)**
- **分层 SDN 控制器**:使用分层联邦式的 SDN 控制平台 **Orion**,将高层级的业务意图(Intent)逐级分解,最终转化为网络交换机中的具体流表项。
- **通用网络模型**:通过 **MALT** (Multi-Abstraction-Layer Topology) 这一通用网络模型,以抽象的方式描述网络拓扑和业务策略,使控制平面能够一致地在整个网络中实施这些策略。
- **标准化 API**:广泛采用 **OpenConfig** 等标准化、厂商中立的 API,实现了对多厂商设备的统一管理和互换使用,增强了网络的灵活性和健壮性。
4. **自治网络:AI/ML 驱动的智能运维**
- **智能事件响应**:利用 **Gemini 和 Vertex AI** 构建的 Agentic AI 框架,实现网络故障的快速识别、缓解和根因分析。
- **预测性规划**:使用 **AutoML** 进行精确的需求预测,并结合图优化算法进行网络容量规划。
- **智能路由优化**:应用 **强化学习 (Reinforcement Learning)** 技术,根据网络性能等特定目标动态调整和优化路由指标。
## 方案客户价值
- **从容应对 AI 业务爆发式增长**:多切片网络的水平扩展架构能够轻松应对 AI 训练和推理带来的 **7倍** 甚至更高量级的突发流量增长,为客户的 AI 创新提供坚实的网络基础。
- **保障关键业务的极致连续性**:
- 多层级隔离机制将故障影响限制在最小范围。
- **Protective ReRoute** 技术可将 _累计网络中断时间减少高达93%_,提供近乎瞬时的故障恢复能力,确保 AI 等关键任务不间断运行。
- **满足精细化控制与合规需求**:
- 基于 SDN 的意图驱动网络允许客户将数据主权、监管合规等业务策略直接编程到网络中,实现对动态数据的精细化路径控制。
- 可为关键应用预留和隔离带宽,保障其性能。
- **显著降低运维成本与复杂性**:
- 自治网络将 AI/ML 技术应用于运维,可将故障缓解时间 _从数小时缩短至数分钟_,大幅减少人工干预,有效抑制网络规模扩张带来的运维成本曲线陡峭上升。
## 涉及的相关产品与技术
- **Multi-shard Network**:Google 的核心网络扩展架构。
- **Protective ReRoute**:Google 自研的主机端快速重路由技术,用于实现超高可靠性。
- **Orion**:Google 的分层联邦式 SDN 控制平面平台。
- **MALT**:Google 的通用网络拓扑与策略建模语言。
- **OpenConfig**:Google 倡导的、用于实现多厂商网络设备互操作性的开放标准。
- **Gemini & Vertex AI**:用于构建自治网络 AI 代理,执行智能事件响应。
- **AutoML**:用于网络需求预测与容量规划。
## 技术评估
- **优势**:
- **架构前瞻性**:将超大规模数据中心网络的设计理念(如水平扩展、多切片)创新性地应用于全球广域网,是应对 AI 时代网络挑战的范式转变,远超传统网络架构。
- **可靠性设计的深度**:通过多切片隔离、多厂商部署和创新的主机端 **Protective ReRoute** 技术,构建了多层次、主动式的可靠性保障体系,其恢复速度和效果超越了传统依赖路由协议收敛的被动机制。
- **高度的智能化与自动化**:深度融合了 **SDN** 的可编程性和 **AI/ML** 的决策能力,从“自动化”迈向“自治化”,代表了网络运维的未来发展方向,能够有效解决超大规模网络的复杂性问题。
- **开放生态**:积极拥抱和推动 **OpenConfig** 等开放标准,降低了供应商锁定风险,提升了网络架构的弹性和供应链的安全性。
- **可能的限制**:
- **技术栈专有性**:尽管使用了 OpenConfig,但其核心技术如 Orion、MALT 和 Protective ReRoute 均为 Google 内部高度定制化的组件,外部客户难以在混合云或多云环境中复制这套体系,可能形成一定程度的技术绑定。
- **实施依赖性**:**Protective ReRoute** 的高效运作依赖于主机端的紧密配合,这意味着应用负载需要深度集成于 Google 的基础设施才能完全发挥其优势,对于传统应用或迁移上云的应用可能存在适配挑战。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 深入解析 Google AI 时代全球网络背后的技术
**原始链接:** [https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive](https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive)
**发布时间:** 2025-04-23
**厂商:** GCP
**类型:** BLOG
---
网络
# 深入解析 Google AI 时代全球网络背后的技术
2025 年 4 月 23 日
##### Subhasree Mandal
杰出工程师
##### 试用 Gemini 2.5
我们最智能的模型现已在 Vertex AI 上提供
[立即试用](https://console.cloud.google.com/vertex-ai/studio/freeform)
AI 应用前所未有的增长和独特的挑战,正在推动 Google 下一代全球网络发生根本性的架构变革。
AI 时代带来了对网络容量需求的爆炸式增长,并伴随着大规模模型训练和推理所特有的新型流量模式。与此同时,对坚定不移的可靠性的迫切需求也达到了新的高度;在 AI 驱动的世界里,服务中断是绝不能接受的。此外,对增强安全性、精细化控制以及数据主权 (data sovereignty) 的考量也至关重要。最后,扩展传统网络架构所带来的运营成本和复杂性,要求我们采用更具创新性的方法,从基础自动化迈向真正的自治化。
正如我们在 [这篇博客](https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations) 中所讨论的,我们通过将 Google 下一代全球网络建立在四大关键架构原则之上来直面这些挑战:(1) 指数级可扩展性 (exponential scalability),(2) 超高可靠性 (beyond-9s reliability),(3) 意图驱动的可编程性 (intent-driven programmability),以及 (4) 自治网络 (autonomous networking)。
在本篇博客中,让我们层层深入,探究底层技术如何将这四大原则变为现实。
### **通过多分片网络实现指数级可扩展性**
我们通过 **多分片网络 (multi-shard network)** 将弹性水平扩展作为 Google 全球网络的核心架构原则。我们没有构建一个单一的单体网络 (monolithic network),而是构建了多个独立的分片。这带来了几大好处:
- **水平扩展:** 当需要更多容量时,我们可以通过扩大单个分片来进行纵向扩展 (scale up),也可以通过增加更多分片来进行横向扩展 (scale out),从而克服垂直扩展 (vertical scale) 的限制和复杂性。这类似于增加更多独立的网络,而不是试图将一个网络做得越来越大。
- **独立的平面:** 每个分片内部的控制平面 (control plane)、数据平面 (data plane) 和管理平面 (management plane) 的分离,极大地限制了任何潜在问题的影响范围。一个分片中的软件缺陷或操作失误 (例如错误的配置推送) 影响其他分片的可能性要小得多,从而增强了网络的整体稳定性。

在 AI 时代,**广域网 (WAN) 就是新的局域网 (LAN),而整个大洲就是数据中心**。这种水平扩展方法受到我们海量数据中心网络矩阵 (data center fabrics) 设计的启发,使 Google 的全球网络能够应对当今 AI 工作负载前所未有的带宽需求。这个多分片网络是我们能够应对 2020 年至 2025 年间平均 **7 倍广域网流量增长** 的关键因素,更重要的是,由于同期机器学习 (ML) 流量的突发性,峰值流量实现了数量级的增长。
### **超高可靠性:为弹性而设计**
在一个服务永不间断的世界里,可靠性至关重要。Google 的全球网络融合了多项关键创新来实现超高可用性,强调在堆栈的每一层都实现多样性和独立性,以避免“连带故障 (shared fate)” (即级联故障 (cascading failures)),并在故障期间将影响降至最低。
- **多分片隔离:** 每个网络分片都拥有独立的数据、控制和管理平面。我们控制着进出这些分片到达集群或边缘的流量。这可以防止某个集群的不良状态同时污染所有分片。分片架构本身就提供了一定程度的隔离。此外,在部署网络分片时,我们采用了多厂商模式 (multi-vendor paradigm)。这得益于我们多年来对开放 API (open API) 和模型的开发 (稍后讨论),使我们能够在相同的网络功能下操作任何厂商的平台。这种多厂商方法可以保护我们的网络分片免受第三方软件或硬件引入的漏洞影响。
- **区域隔离:** 通过这种方法,区域核心将流量限制在其域内,而区域网关则对进出流量执行策略。这限制了区域性事件的影响,有效地保护了网络的其余部分。

- [保护性重路由 (Protective ReRoute)](https://research.google/pubs/improving-network-availability-with-protective-reroute/) **:** Google 的全球网络实现了一种独特的传输技术,用于缩短用户可见的服务中断时间,它补充了路由修复功能,并标志着我们对网络可靠性思考方式的根本性转变。在传统的网络模型中,主机发送数据包,路由器处理它们。而通过保护性重路由,主机会主动地在不同网络路径间切换流量,以提高可靠性和性能。它能智能地检测网络路径异常,并迅速、自动地将流量重新路由到一条健康的备用路径上,该路径可能位于相同或不同的分片中。主机通过更改数据包头中的几个比特位,在往返时间 (RTT) 的量级 (即 O(RTT)) 内完成流量重路由,这些比特位用于计算哈希函数,从而在多条同样可行的路径中选择一条特定路径。这种由主机发起的重路由为客户流量提供了超越传统路由和流量工程 (traffic engineering) 的保护,并且它独立于网络类型、网络规模或故障类型,从而提供了稳健且确定性的恢复和性能。在我们的网络中应用保护性重路由后,我们观察到累计中断分钟数减少了高达 **93%**。

要了解这些可扩展性和弹性创新的概念性概述,请观看此视频:

另外,请务必观看此演示,了解我们的多分片网络和保护性重路由相结合所带来的价值。在这里,我们模拟了一次网络分片故障,并展示了主机如何迅速检测到路径故障,并将流量通过一个不同且健康的分片中的备用路径进行路由,从而实现近乎即时的恢复。

### **意图驱动的可编程性,实现精细化网络控制**
为了满足客户多样化且不断变化的需求,网络的敏捷性和精细化的可编程性至关重要。Google 的全球网络允许根据特定的业务需求精确定制网络控制,涵盖了法规遵从、数字主权要求以及独特的应用性能需求,甚至可以细化到最微小的网络属性。这种可编程性是通过以下方式实现的:
- [软件定义网络 (SDN) 控制器](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/) **:** Google 的全球网络完全是意图驱动的,SDN 无处不在。我们使用 SDN 控制器来分层管理网络行为。[Orion](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/) 是我们的分层联合 SDN 控制平面平台,它将顶层意图通过多层网络控制应用进行传播,这些应用随后通过更新其内部状态并为每个网络交换机生成中间意图来做出反应。这种分层传播最终导致网络交换机中编程的流状态发生变化。
- [通用网络模型](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/) **:** 我们的通用网络模型,即多抽象层拓扑表示 (Multi-Abstraction-Layer Topology representation) 或 [MALT](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/),允许我们指定通用的意图和业务策略。我们的控制和管理平面随后可以使用这些表示在整个网络中一致地实施这些策略。
- [标准化 API](https://www.openconfig.net/) **:** 由于我们依赖 OpenConfig 软件层,我们可以互换使用多家路由供应商,从而使网络更加稳健。通过供应商多样性,某个供应商软件或硬件中的缺陷或问题不会影响整个网络,并且我们在扩展网络时拥有更多选择。
这种可编程性使我们能够将业务策略直接实施到网络矩阵中,为关键应用提供精细的控制粒度和带宽隔离能力。有特定法规要求的客户也可以利用这种可编程性,为他们传输中的数据强制执行所需的网络路径控制。
### **为 AI 提供动力的网络实现自治网络**
像我们这样规模的全球网络,其巨大的规模和复杂性要求我们从传统自动化转向一种更智能、需要最少人工干预的自治方法。这对于避免网络增长带来的运营费用大幅增加,以及平滑网络规划、设计和运营的成本曲线尤为关键。以下是我们目前应用 AI/ML 技术的一些示例。我们看到未来有机会将其扩展到更多用例中:
- **使用 Gemini 和 Vertex AI 智能体框架进行网络事件响应:** 我们正在使用一种 AI 智能体方法,通过更快地识别和缓解故障来缩短中断时间,并进行更有效的根因分析 (root-cause analysis)。这有助于我们减少网络问题的平均检测时间 (mean-time to detect) 和平均解决时间 (mean-time to resolve)。
- **需求预测和容量规划:** 我们使用 [AutoML](https://cloud.google.com/automl) 进行准确的需求预测,并采用图优化 (graph optimization) 来优化我们的网络容量规划。
- **使用强化学习进行路由优化**:我们利用强化学习 (Reinforcement learning) 来调整路由指标,以实现特定目标,例如提升网络性能。
自治网络使我们将故障缓解时间**从数小时缩短到数分钟**,从而提高了我们网络的弹性和客户体验。观看此演示,了解我们的自治网络实际应用的示例!

### **总结**
Google 的下一代全球网络代表了为 AI 时代提供动力的网络架构范式转变,它通过多分片实现水平扩展,通过区域隔离和保护性重路由在每一层构建弹性,通过 SDN 实现精细化可编程性,并采用由 AI/ML 驱动的自治网络运营。这有助于 Google 的全球网络提供当今关键任务服务和 AI/ML 应用所需的规模、可靠性、性能和安全性。Google 软件定义全球骨干网的这一转型不仅应对了 AI 时代的巨大挑战,还使我们的客户能够在这个新环境中创新和发展。我们的下一代网络旨在成为推动技术和连接未来的无形但不可或缺的力量。
这次深入探讨只是触及了皮毛,但希望它能让您一窥支撑 Google 全球网络的创新技术。在我们继续应对 AI 时代激动人心的挑战和机遇时,Google 的全球网络是我们为全球用户和客户构建并提供变革性体验的基石。随着 Google 全球网络的不断发展,敬请关注更多更新!
发布于
- [网络](https://cloud.google.com/blog/products/networking)
- [Google Cloud Next](https://cloud.google.com/blog/topics/google-cloud-next)
<!-- AI_TASK_END: AI全文翻译 -->