**发布时间:** 2025-11-05
**厂商:** GCP
**类型:** BLOG
**原始链接:** https://cloud.google.com/blog/products/networking/how-google-cloud-networking-supports-your-ai-workloads
---
<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] Google Cloud 网络赋能 AI 工作负载的七种方式
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# Google Cloud AI 工作负载的网络能力分析
## 解决方案概述
该文档阐述了 **Google Cloud 网络** 作为关键基础设施,如何为 AI 工作负载提供全生命周期的支持。它强调网络并非孤立的技术,而是贯穿于 AI 应用开发与运行的各个环节,是实现 AI 工作负载**高效、安全、规模化**运行的“结缔组织”。该方案旨在解决 AI 场景下常见的数据传输瓶颈、安全风险、混合云集成复杂性以及运维挑战。其技术核心在于通过专门优化的网络拓扑、高性能协议以及与 AI 服务的深度集成,为从数据准备、模型训练到推理部署的全流程提供无缝、可靠的连接。
## 核心网络能力与应用场景
1. **安全访问 AI API**
- AI 服务(如 Vertex AI 上的 Gemini)通常通过公共 API 端点(如 `*-aiplatform.googleapis.com`)访问。Google Cloud 网络确保了这些连接的可靠性,并通过严格的身份验证机制保障访问安全。同时,支持通过私有连接方式访问,增强数据安全性。
2. **模型推理服务的发布**
- 用户在 GKE 等自控基础设施上部署模型后,可利用 `GKE Inference Gateway`、`Cloud Load Balancing` 或 `ClusterIP` 等网络组件,将模型以私有或公有方式暴露为推理服务。这些组件作为流量入口,确保了应用与模型之间交互的可靠性和可扩展性。
3. **高速 GPU 间通信**
- 大规模模型训练涉及海量 GPU 间的数据交换。为避免传统网络成为瓶颈,Google Cloud 采用 **RDMA (远程直接内存访问)** 技术,特别是 **RoCEv2** 协议,允许 GPU 绕过 CPU 直接进行内存通信。
- > 为支撑此能力,Google 数据中心构建了**无阻塞轨道对齐网络拓扑 (non-blocking rail-aligned network topology)**,为大规模分布式训练提供了极致的低延迟和高吞吐量。
4. **数据注入与存储连接**
- AI 模型的性能依赖于高效的数据访问。网络是连接计算资源(如 GPU VM)与存储服务(如 `Google Cloud Storage`、`Hyperdisk ML`、`Managed Lustre`)的桥梁,确保 AI 管道能够低延迟、高吞吐地读取训练数据。
5. **AI 工作负载的私有连接**
- 为满足企业对安全合规的严苛要求,Google Cloud 提供多种私有连接方案以隔离 AI 工作负载。
- **VPC Service Controls**: 创建服务边界,防止敏感数据从受控环境外泄。
- **Private Service Connect (PSC)**: 允许从用户的 VPC 内通过私有端点访问 Google 托管的 AI 服务或用户自己的服务。
- **Cloud DNS**: 配置私有 DNS 区域,以便在内部网络中使用域名解析私有 AI 服务。
6. **混合云连接**
- 针对拥有本地数据中心或多云环境的企业,**Cross-Cloud Network** 平台提供了统一的网络解决方案。它支持构建从本地到云、云到云的任意连接,使企业可以在确保数据安全的同时,利用云端强大的 AI 计算资源处理本地的敏感数据。
7. **AI 驱动的网络运营**
- AI 与网络的关系正在从单向支撑转变为双向赋能。借助 **Gemini for Google Cloud**,网络工程师可以使用自然语言进行网络架构的设计、优化和故障排查。
- > 这标志着向“**代理式网络 (agentic networking)**”的演进,即由自主 AI 代理主动预测、诊断并修复网络问题,将网络运维从被动响应转变为主动预测。
## 方案客户价值
- **极致性能加速**: 通过 RDMA 和专为大规模训练优化的底层网络架构,显著缩短模型训练周期,加快 AI 应用迭代速度。
- **企业级安全保障**: 提供从网络边界到服务访问的全方位私有连接和数据保护机制,有效防止数据泄露,满足金融、医疗等行业的合规要求。
- **架构灵活性与开放性**: 支持公有云、私有云和混合云等多种部署模式,允许企业根据业务需求灵活选择模型部署和数据存储位置。
- **简化运维,提升效率**: 引入 AI 驱动的网络运营模式,降低了网络管理的复杂性,将网络工程师从繁琐的排障工作中解放出来,实现从被动响应到主动优化的转变。
## 涉及的相关产品
- **Vertex AI (Gemini)**: Google 的托管式 AI 平台,通过 API 提供模型训练和推理服务。
- **Google Kubernetes Engine (GKE)**: 用于部署和管理容器化 AI 模型推理服务的容器平台。
- **GKE Inference Gateway**: GKE 的一个组件,专门用于优化和简化推理服务的发布。
- **Cloud Load Balancing**: 将外部或内部流量高效分发到后端的模型推理服务。
- **RDMA over Converged Ethernet (RoCEv2)**: 在特定 GPU 虚拟机上支持的高性能网络协议,用于加速节点间通信。
- **Google Cloud Storage, Hyperdisk ML, Managed Lustre**: 为 AI/ML 工作负载提供不同性能特征的数据存储选项。
- **VPC Service Controls**: 定义服务边界以控制数据流动的安全产品。
- **Private Service Connect (PSC)**: 在 VPC 网络内私密地连接和使用服务的技术。
- **Cross-Cloud Network**: 用于连接本地、多云和多 VPC 环境的统一网络平台。
- **Gemini for Google Cloud**: 嵌入 Google Cloud 的 AI 助手,用于辅助云资源的配置、管理和排障。
## 技术评估
- **技术优势**:
- **端到端解决方案**: 网络能力深度整合于 AI 全生命周期,从底层硬件到上层运维,形成了一套完整的技术体系。
- **专为大规模 AI 优化的基础设施**: **无阻塞轨道对齐网络拓扑**和对 **RDMA (RoCEv2)** 的原生支持,是其在超大规模分布式训练场景下的核心技术护城河,提供了业界领先的性能保证。
- **深度集成的安全模型**: 将网络安全能力(如 PSC、VPC SC)与 AI 服务无缝集成,简化了企业级安全架构的实现,降低了配置复杂性。
- **前瞻性的运维理念**: 率先提出并实践“代理式网络 (agentic networking)”概念,利用生成式 AI 赋能网络运营,展示了在 AIOps 领域的领导力和未来发展方向。
- **潜在限制**:
- 该文档作为一篇概述性博客,侧重于展示能力和优势,未深入探讨在实现这些高级功能(如配置 RoCEv2 或设计复杂的 Cross-Cloud Network)时可能面临的技术复杂性和挑战。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 网络赋能 Google Cloud 上 AI 工作负载的 7 种方式
**原始链接:** [https://cloud.google.com/blog/products/networking/how-google-cloud-networking-supports-your-ai-workloads](https://cloud.google.com/blog/products/networking/how-google-cloud-networking-supports-your-ai-workloads)
**发布时间:** 2025-11-05
**厂商:** GCP
**类型:** BLOG
---
网络
# 网络赋能 Google Cloud 上 AI 工作负载的 7 种方式
2025 年 11 月 5 日

##### Ammett Williams
开发者关系工程师
##### 试用 Gemini 2.5
我们最智能的模型现已在 Vertex AI 上提供
[立即试用](https://console.cloud.google.com/vertex-ai/studio/freeform)
当我们谈论人工智能 (AI) 时,我们常常关注模型、强大的 TPU 和 GPU 以及海量数据集。但在这背后,有一个默默无闻的英雄让这一切成为可能:**网络**。虽然网络通常被抽象化,但它却是关键的连接组织,使您的 AI 工作负载能够高效、安全且大规模地运行。
在本文中,我们将探讨网络与您在 Google Cloud 上的 AI 工作负载交互的七种关键方式,从访问公共 API 到实现下一代 AI 驱动的网络运维。
### **#1 - 安全地访问 AI API**
如今许多强大的 AI 模型,如 Vertex AI 上的 Gemini,都是通过公共 API (Public API) 访问的。当您调用像 `*-aiplatform.googleapis.com` 这样的端点 (Endpoint) 时,您依赖于一个可靠的网络连接。为了获得访问权限,这些端点需要适当的身份验证。这确保了只有经过授权的用户和应用程序才能访问这些强大的模型,从而有助于保护您的数据和 AI 投资。您也可以私密地访问这些端点,我们将在第 5 点中更详细地介绍。
### **#2 - 暴露模型以用于推理**
在您训练或微调模型后,需要将其[提供用于推理 (Inference)](https://cloud.google.com/vertex-ai/docs/general/deployment) 。除了 Google Cloud 中的托管产品外,您还可以灵活地将模型部署在您控制的基础设施上,使用配备强大 GPU 的专用 [虚拟机 (VM) 系列](https://cloud.google.com/compute/docs/gpus#gpu-models) 。例如,您可以将模型部署在 [Google Kubernetes Engine (GKE)](https://cloud.google.com/kubernetes-engine/docs/concepts/kubernetes-engine-overview) 上,并使用 [GKE Inference Gateway](https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway) 、Cloud Load Balancing 或 ClusterIP 将其暴露出来,用于私有或公共推理。这些网络组件充当您应用程序的入口点,使其能够无缝、可靠地与您的模型部署进行交互。
### **#3 - 高速的 GPU 到 GPU 通信**
AI 工作负载,特别是训练任务,涉及在 GPU 之间移动海量数据。依赖 CPU 拷贝操作的传统网络可能会造成瓶颈。这就是**远程直接内存访问 (Remote Direct Memory Access / RDMA)** 等协议发挥作用的地方。RDMA 绕过 CPU,实现了 GPU 之间的直接内存到内存通信。
为了支持这一点,底层网络必须是无损且高性能的。Google 在其数据中心架构中构建了一个[无阻塞的 rail-aligned 网络拓扑](https://cloud.google.com/compute/docs/gpus/gpu-network-bandwidth#h200-gpus) ,以支持 RDMA 通信和节点扩展。多个高性能 GPU VM 系列支持[融合以太网上的远程直接内存访问 (RDMA over Converged Ethernet / RoCEv2)](https://cloud.google.com/vpc/docs/network-profiles#about_network_profiles) ,为要求苛刻的 AI 工作负载提供了所需的速度和效率。
### **#4 - 数据注入和存储连接**
您的 AI 模型的好坏取决于其训练数据。这些数据需要被高效地存储、访问和检索。Google Cloud 提供了多种存储选项,例如 [Google Cloud Storage](https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml#review-storage-options) 、[Hyperdisk ML](https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml#review-storage-options) 和 [Managed Lustre](https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml#review-storage-options) 。网络将您的计算资源连接到您的数据。无论您是直接访问数据还是通过网络访问,拥有到存储的高吞吐、低延迟连接对于保持 AI 流水线平稳运行至关重要。
### **#5 - 到 AI 工作负载的私有连接**
安全性至关重要,您通常需要确保您的 AI 工作负载不暴露于公共互联网。Google Cloud 提供了多种方式来实现与托管的 Vertex AI 服务和您自己 DIY 的 AI 部署的私有通信。这些方式包括:
- [VPC Service Controls](https://cloud.google.com/vpc-service-controls/docs/overview) **:** 创建一个服务边界 (Service Perimeter) 以防止数据泄露 (Data Exfiltration)。
- [Private Service Connect](https://cloud.google.com/vpc/docs/private-service-connect) **:** 允许您从您的 VPC 私密地访问 Google API 和托管服务。您可以使用 PSC 端点连接到您自己的服务或 Google 服务。
- [Cloud DNS](https://cloud.google.com/dns/docs/best-practices) **:** [私有 DNS 区域 (Private DNS zones)](https://cloud.google.com/vpc/docs/configure-private-service-connect-services#configure-dns-manual) 可用于解析您的 AI 服务的内部 IP 地址。
### **#6 - 通过混合云连接弥合差距**
许多企业采用混合云 (Hybrid Cloud) 策略,将敏感数据保留在本地 (On-premises)。Cross-Cloud Network 允许您构建网络架构以提供任意到任意 (any-to-any) 的连接。通过覆盖[分布式应用 (Distributed Applications)](https://cloud.google.com/architecture/ccn-distributed-apps-design) 、[全球前端 (Global Front End)](https://services.google.com/fh/files/misc/global_front_end_solution_deep_dive.pdf) 和 [Cloud WAN](https://services.google.com/fh/files/misc/cloud_wan_solution_overview.pdf) 的设计案例,您可以安全地从本地、其他云或其他 VPC 构建架构,以连接到您的 AI 工作负载。这种混合连接使您能够利用 Google Cloud AI 服务的可扩展性,同时确保数据安全。
### **#7 - 未来:AI 驱动的网络运维**
AI 与网络之间的关系正变得双向化。借助 [Gemini for Google Cloud](https://cloud.google.com/gemini/docs/overview) ,网络工程师现在可以使用自然语言 (Natural Language) 来设计、优化和排查其网络架构。这是我们称之为“代理式网络 (Agentic Networking)”的第一步,在这种模式下,自主 AI 代理 (Autonomous AI Agents) 可以主动检测、诊断甚至缓解网络问题。这将网络工程从一个被动的学科转变为一个预测性和主动性的学科,确保您的网络始终为您的 AI 工作负载进行优化。

### **了解更多**
要了解更多关于 Google Cloud 上的网络和 AI 的信息,请深入研究以下资源:
- 文档: [AI Hypercomputer](https://cloud.google.com/ai-hypercomputer/docs/create/create-overview)
- Codelabs: [在 GCE 上通过 Private Service Connect 端点使用 Gemini CLI](https://codelabs.developers.google.com/codelabs/terraform-gemini-cli-gce-psc)
- 白皮书: [通过自主网络运维实现升级](https://cloud.google.com/resources/content/autonomous-network-operations?hl=en)
想要提问、了解更多信息或分享想法?请通过 [Linkedin](https://www.linkedin.com/in/ammett/) 与我联系。
发布于
- [网络](https://cloud.google.com/blog/products/networking)
- [开发者与实践者](https://cloud.google.com/blog/topics/developers-practitioners)
<!-- AI_TASK_END: AI全文翻译 -->