[新产品/新功能] GKE 推出托管式 DRANET，为 A4X Max 实例解锁极致 AI 性能

**发布时间:** 2025-10-29 **厂商:** GCP **类型:** BLOG **原始链接:** https://cloud.google.com/blog/products/networking/introducing-managed-dranet-in-google-kubernetes-engine ---  [新产品/新功能] GKE 推出托管式 DRANET，为 A4X Max 实例解锁极致 AI 性能   # 产品功能分析 ## 新功能/新产品概述 GCP 在 **GKE (Google Kubernetes Engine)** 中以预览版形式推出了托管式 **DRANET** 服务，首发支持其最新的 **A4X Max** AI 加速器实例。 **DRANET** (Dynamic Resource Allocation for Networking) 是一项基于 Kubernetes 开源框架 **DRA** (Dynamic Resource Allocation) 的 API 扩展，由 Google 主导提出。其核心目标是将高性能网络接口（NIC）作为 Kubernetes 中可被调度的一等公民资源进行管理。该技术旨在解决大规模 AI/ML 负载中因传统 Kubernetes 调度器“拓扑盲目性”而引发的网络性能瓶颈。其工作原理是，通过将 **DRANET** 集成到 GKE 控制平面，使调度器具备硬件拓扑感知能力。当一个 Pod 请求 GPU 和高性能网络资源时，GKE 能够智能地为其分配物理上与 GPU 位于同一 **NUMA** (非统一内存访问) 节点的网络接口。用户可以在 Pod 的规约（Specification）中像声明 GPU 一样，以声明式的方式请求特定数量的高性能网络接口。该产品主要面向在 GKE 上运行大规模、跨节点分布式训练的 AI/ML 开发者和企业，特别是那些使用 **A4X Max** 这类拥有多个 **RDMA** 接口的顶级加速器硬件的用户。GCP 将其定位为一个企业级的集成解决方案，旨在简化高性能 AI 基础设施的运维复杂性，并充分释放底层硬件的极致性能。 ## 关键客户价值 - **突破性能瓶颈，提升训练效率** - 通过实现 GPU 与网络接口的 **NUMA 对齐**，最小化数据在 CPU、GPU 和网卡之间的传输延迟，从而显著提升通信带宽。根据 Google 内部研究论文的数据，这种对齐可使总线**带宽提升高达 *59.6%***。 - 对于依赖 **RDMA** (远程直接内存访问) 进行高速节点间通信的大规模模型训练，性能提升意味着更短的训练周期和更快的模型迭代速度。 - **简化运维，降低管理复杂性** - 将复杂的硬件拓扑感知调度能力抽象为 GKE 的托管服务，用户无需手动配置节点亲和性（Node Affinity）或进行复杂的网络拓扑管理。 - 开发者可以通过标准的 Kubernetes API（在 Pod Spec 中声明资源）来获取优化的网络性能，实现了基础设施即代码，提升了自动化水平和部署的可靠性。与自建方案相比，这极大地降低了技术门槛和运维成本。 - **优化资源利用率与成本效益** - **DRANET** 确保一个 Pod 只有在节点同时满足其所需的 GPU 和对齐的高性能网络接口时才会被调度，避免了因资源不匹配（例如节点有空闲 GPU 但无可用对齐网卡）而导致的资源浪费。 - 协同调度机制提升了整个集群的资源分配效率和利用率，有助于降低大规模 AI 训练的总拥有成本 (TCO)。 ## 关键技术洞察 - **基于开放标准的演进** - 该功能并非私有技术，而是建立在 Kubernetes 社区的 **DRA (动态资源分配)** 框架之上，并由 Google 将 **DRANET** 作为扩展贡献给开源社区。这体现了 GCP 遵循云原生开放标准的策略，确保了方案的通用性和可移植性，避免了厂商锁定。 - **核心机制：从“拓扑无关”到“拓扑感知”的调度** - _技术原理是 GKE 调度器的核心能力升级_。它不再仅仅是匹配资源请求的数量，而是能够理解底层硬件的物理布局，特别是 **NUMA** 节点的划分。 - 在调度决策过程中，GKE 会分析节点上各类资源（GPU、NIC）的拓扑信息，并执行一个匹配算法，确保分配给同一个 Pod 的关键资源位于同一 **NUMA** 域内，从而实现最高效的数据通路。 - **将网络资源抽象为一等公民** - 传统 Kubernetes 网络模型（CNI）主要关注 Pod 间的连接性，而 **DRANET** 则将高性能网络接口（特别是支持 **RDMA** 的网卡）提升为与 CPU、内存同等级别的、可被独立请求和精细化管理的“一等资源”。这是对 Kubernetes 资源模型的重大扩展，为未来支持更多类型的异构硬件和高性能计算场景奠定了基础。 ## 其他信息 - **与旗舰硬件的深度绑定与协同优化** - 托管式 **DRANET** 服务与 GCP 最新的旗舰 AI 实例 **A4X Max** 同步推出，后者基于 NVIDIA GB300 NVL72 机架级系统，内置多个 **RDMA** 接口。 - 这种软硬件协同发布策略表明，**DRANET** 是解锁 **A4X Max** 全部潜能的关键技术。GCP 正在构建一个从底层硬件到上层编排平台深度垂直整合的 AI 基础设施生态，以提供极致性能和简化用户体验。   # 解锁您所需的 AI 性能：在 GKE 上为 A4X Max 引入托管式 DRANET **原始链接:** [https://cloud.google.com/blog/products/networking/introducing-managed-dranet-in-google-kubernetes-engine](https://cloud.google.com/blog/products/networking/introducing-managed-dranet-in-google-kubernetes-engine) **发布时间:** 2025-10-29 **厂商:** GCP **类型:** BLOG --- 网络 # 解锁您所需的 AI 性能：在 GKE 上为 A4X Max 引入托管式 DRANET 2025 年 10 月 29 日 ##### Rob Enns Google Cloud 总经理/工程副总裁 ##### Shrikant Kelkar Google Cloud 产品经理 ##### 试用 Gemini 2.5 我们最智能的模型现已在 Vertex AI 上提供 [立即试用](https://console.cloud.google.com/vertex-ai/studio/freeform) 随着人工智能/机器学习 (AI/ML) 模型的不断增长，其基础设施需求正在将传统网络推向极限，从而造成了关键的性能瓶颈。对于在 Kubernetes 和 Google Kubernetes Engine (GKE) 上运行的模型来说，尤其如此。在 Google，我们一直致力于在开源社区中让 Kubernetes 能够感知专用硬件的能力。例如，我们一直积极参与开发 Kubernetes **动态资源分配 (Dynamic Resource Allocation, DRA)** 框架，这是一个用于专用硬件的通用 API。在 DRA 的基础上，我们提出了网络动态资源分配 (Dynamic Resource Allocation for Networking, DRANET)，它扩展了 DRA API，将网络接口作为一等、可调度的资源进行管理，并专注于性能。今天，我们自豪地宣布推出预览版的 **Google Kubernetes Engine (GKE) 上的托管式 DRANET (managed DRANET)**，首发搭载于我们全新的 [A4X Max 实例](https://cloud.google.com/blog/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more) 。通过此次发布，Google Cloud 正在将托管式 DRANET 部署到生产环境中，并从 A4X Max 开始。托管式 DRANET 提供了一个企业级的集成解决方案，可以在 Kubernetes 上智能地将高性能网络接口与加速器一同分配，从而解决了要求严苛的 AI 工作负载在网络性能和运维复杂性方面的核心挑战。 ### **AI 网络中隐藏的性能瓶颈** GKE 上的 DRANET 专为跨多个 GPU 运行的 AI 工作负载而设计。像新款 A4X Max 这样的现代加速器实例使用多个高吞吐量 RDMA 网络接口来为那些强大的 GPU 提供数据。然而，传统的 Kubernetes 网络接口存在局限性，使其难以充分利用这些网络能力： - **拓扑盲点 (Topology blindness):** 峰值性能需要**网络接口对齐 (network interface alignment)**。为了降低延迟，GPU 及其网络接口在物理上必须“靠近”，理想情况下位于同一个非一致性内存访问 (non-uniform memory access, NUMA) 节点上。默认的 Kubernetes 调度器无法感知这种硬件拓扑，这可能导致次优配对和性能严重下降。 - **运维性能不佳 (Poor operational performance):** 无法协同调度 NIC 和 GPU 也会导致资源利用率不佳。这会影响整体集群性能和效率，因为调度器无法有效地将可用的加速器与它们所需的特定网络接口进行匹配。 ### **GKE 与 DRANET 如何释放性能** 通过我们的托管式 DRANET 集成，GKE 的控制平面能够提供更高的性能，具体体现在： 1. **智能对齐以实现更高吞吐量:** 这是核心的性能优势。GKE 现在可以分配与指定 GPU **NUMA 对齐**的网络接口，从而实现更低的延迟和更高的吞D吐量。NUMA 对齐至关重要：正如我们的 [DRANET 研究论文](https://github.com/google/dranet/blob/main/site/static/docs/kubernetes_network_driver_model_dranet_paper.pdf) 中详细介绍的，在一系列内部测试中，我们观察到总线**带宽增加了高达 59.6%**。 2. **动态资源规范:** DRANET 允许您在您的 Pod 规范中直接动态地表达工作负载的网络需求。您可以在请求 GPU 的同时，请求特定数量的高性能网络接口。GKE 随后会确保您的 Pod 只被调度到同时拥有所需 GPU 和特定网络接口的节点上。这些都是复杂精密的流程，但借助 GKE 上的托管式 DRANET，复杂性被抽象掉了。您既能获得拓扑感知集群的性能，又能享有成熟的企业级容器编排平台的灵活性和简单性。 ### **DRANET 与新款 A4X Max：天作之合** GKE 的托管式 DRANET 恰逢 **Google Cloud A4X Max 实例**的推出，这是我们基于 NVIDIA GB300 NVL72 机架级系统的全新旗舰级 AI 平台。这些实例为超大规模 AI 而构建，并配备了多个 RDMA 接口。 GKE 上的托管式 DRANET 释放了该硬件的全部性能，确保每个 GPU 都拥有其所需的专用的、对齐的、低延迟的网络路径。要深入了解 A4X Max 实例本身，**请阅读 [完整的发布博客](https://cloud.google.com/blog/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more?e=48754805)** 。 ### **GKE 上 AI 网络的未来** GKE 上托管式 DRANET 的发布是一个里程碑，它将 Kubernetes 从拓扑无关的资源管理转变为拓扑感知的资源管理。这就是 Google Cloud 的力量：创新并引领一个强大的开源概念，并将其作为一种简单、可扩展的托管式解决方案来交付。要了解有关 DRANET 的更多信息并开始使用： - **阅读** [A4X Max 发布博客](https://cloud.google.com/blog/products/compute/now-shipping-a4x-max-vertex-ai-training-and-more) - [开始在 GKE 上使用 DRANET](https://cloud.google.com/kubernetes-engine/docs/how-to/allocate-network-resources-dra) - **探索** [开源项目](https://github.com/google/dranet) - **在 DRANET** [开源博客](https://opensource.googleblog.com/2025/07/unlocking-high-performance-aiml-in-kubernetes-with-dranet-and-rdma.html) **中了解更多信息** - **在 DRANET** [研究论文](https://github.com/google/dranet/blob/main/site/static/docs/kubernetes_network_driver_model_dranet_paper.pdf) **中深入了解其内部原理** 发布于 - [网络](https://cloud.google.com/blog/products/networking) - [人工智能与机器学习](https://cloud.google.com/blog/products/ai-machine-learning) - [容器与 Kubernetes](https://cloud.google.com/blog/products/containers-kubernetes) - [计算](https://cloud.google.com/blog/products/compute)