**发布时间:** 2025-10-30
**厂商:** AWS
**类型:** WHATSNEW
**原始链接:** https://aws.amazon.com/about-aws/whats-new/2025/10/capacity-reservation-topology-api-ai-ml-hpc-instance-type
---
<!-- AI_TASK_START: AI标题翻译 -->
[新产品/新功能] 推出面向 AI、ML 和 HPC 实例类型的容量预留拓扑 API
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
AWS 发布了 Amazon EC2 **容量预留拓扑 API (Capacity Reservation Topology API)**,这是一个面向 AI/ML 和 HPC (高性能计算) 等分布式工作负载的新工具。该 API 的核心目标是让客户在启动实例之前,就能以编程方式获取其**容量预留 (Capacity Reservation)** 的物理网络拓扑视图。
它通过返回一个分层的、基于账户的**网络节点集 (network node set)** 来工作,该集合揭示了不同容量预留之间的相对物理位置和网络邻近度。这使得用户可以提前规划,将对网络延迟高度敏感的计算任务部署在物理上紧密耦合的预留容量中。该产品主要面向管理着大规模(数千个实例级别)分布式并行计算集群的用户,帮助他们在资源调度和作业规划阶段就做出最优决策。它与现有的 **实例拓扑 API (Instance Topology API)** 协同工作,形成一个从容量规划到作业调度的完整解决方案。
## 关键客户价值
- **前置的性能优化与规划**
- 用户无需实际启动实例,即可预先评估和选择网络拓扑最佳的预留容量。这极大地降低了因实例物理位置不佳而导致的试错成本和时间开销,尤其对于需要使用 **MPI (Message Passing Interface)** 或 **NCCL (NVIDIA Collective Communications Library)** 进行节点间密集通信的 AI 训练和 HPC 模拟任务至关重要。
- **大规模集群的调度效率提升**
- 对于管理着分布在数十至数百个容量预留中的大规模实例集群的客户,该 API 提供了一个统一、清晰的视图来理解其资源的物理布局。作业调度器可以基于此拓扑信息,智能地将紧密耦合的子任务分配到延迟最低的预留容量组中,从而显著提升整体计算效率和作业吞吐量。
- **无缝集成的工作流**
- 该 API 与 **实例拓扑 API** 共享一致的“网络节点”表示,构建了一个连贯的规划与执行工作流:
1. **规划阶段**:使用 **容量预留拓扑 API** 识别并选择最适合特定工作负载的、物理位置集中的容量预留。
2. **执行阶段**:在选定的预留中启动实例,然后使用 **实例拓扑 API** 获取更细粒度的节点信息,用于最终的进程排名和任务调度,实现性能最大化。
- 这种分阶段的方案是其差异化优势,它将物理位置规划与实例生命周期管理解耦,提供了比传统**置放群组 (Placement Group)** 更大的灵活性和确定性,特别是在需要预先确保大规模容量的场景下。
## 关键技术洞察
- **物理拓扑信息的抽象化暴露**
- 该 API 的技术核心在于,它在不泄露底层数据中心具体物理细节的前提下,向用户提供了一个关于其预留资源物理邻近度的逻辑抽象视图。它将复杂的网络层级关系(如机架、网络交换机等)简化为一个易于理解和使用的**网络节点集**,这是一种对云基础设施透明度的重要提升。
- **与容量预留系统的深度集成**
- 该功能直接建立在 EC2 **容量预留**服务之上,意味着拓扑信息与容量保证是绑定的。这确保了客户不仅能“看到”最佳的物理位置,还能“锁定”这些位置的计算资源。这种将拓扑感知能力与资源确定性相结合的设计,是满足关键 HPC 和 AI 工作负载严格要求的关键。
## 其他信息
- **广泛的区域可用性**
- 该功能已在全球多个主要 AWS 区域上线,包括美东、美西、欧洲、亚太等多个核心区域,显示了其成熟度和全球推广的决心。
- **实例类型支持**
- 该 API 支持所有已集成 **实例拓扑 API** 的实例类型,这通常涵盖了最新的 GPU、加速器和计算优化型实例,确保其能服务于最前沿的 AI/ML 和 HPC 应用场景。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 为 AI、ML 和 HPC 实例类型推出容量预留拓扑 API (Capacity Reservation Topology API)
**原始链接:** [https://aws.amazon.com/about-aws/whats-new/2025/10/capacity-reservation-topology-api-ai-ml-hpc-instance-type](https://aws.amazon.com/about-aws/whats-new/2025/10/capacity-reservation-topology-api-ai-ml-hpc-instance-type)
**发布时间:** 2025-10-30
**厂商:** AWS
**类型:** WHATSNEW
---
# 为 AI、ML 和 HPC 实例类型推出容量预留拓扑 API (Capacity Reservation Topology API)
发布于: 2025年10月30日
AWS 宣布正式发布 Amazon Elastic Compute Cloud (EC2) 的容量预留拓扑 API (Capacity Reservation Topology API)。该 API 与实例拓扑 API (Instance Topology API) 相结合,使客户能够为人工智能 (Artificial Intelligence)、机器学习 (Machine Learning) 和高性能计算 (High-Performance Computing) 的分布式工作负载高效地管理容量、调度作业和对节点进行排序。容量预留拓扑 API 为客户提供了其容量预留相对位置的、每个账户专属的分层视图。
运行分布式并行工作负载的客户通常需要管理分布在数十到数百个容量预留中的数千个实例。借助容量预留拓扑 API,客户可以将其预留的拓扑描述为一个网络节点集,从而在无需启动实例的情况下,展示其容量的相对邻近度。这使得客户在紧密耦合的容量上配置工作负载时,能够进行高效的容量规划和管理。然后,客户可以使用实例拓扑 API,该 API 在容量预留拓扑 API 的基础上提供了一致的网络节点和更高的粒度,从而能够以一致且无缝的方式调度作业和对节点进行排序,以实现分布式并行工作负载的最佳性能。
容量预留拓扑 API 已在以下 AWS 区域推出:美国东部 (弗吉尼亚北部)、美国东部 (俄亥俄)、美国西部 (北加州)、美国西部 (俄勒冈)、非洲 (开普敦)、亚太地区 (雅加达)、亚太地区 (香港)、亚太地区 (海得拉巴)、亚太地区 (墨尔本)、亚太地区 (孟买)、亚太地区 (大阪)、亚太地区 (首尔)、亚太地区 (新加坡)、亚太地区 (悉尼)、亚太地区 (东京)、加拿大 (中部)、欧洲 (法兰克福)、欧洲 (爱尔兰)、欧洲 (伦敦)、欧洲 (巴黎)、欧洲 (西班牙)、欧洲 (斯德哥尔摩)、欧洲 (苏黎世)、中东 (巴林)、中东 (阿联酋) 和南美洲 (圣保罗),并且支持所有可通过实例拓扑 API 使用的实例。
要了解更多信息,请访问最新的 [EC2 用户指南](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-topology.html) 。
<!-- AI_TASK_END: AI全文翻译 -->