**发布时间:** 2025-09-12
**厂商:** AWS
**类型:** WHATSNEW
**原始链接:** https://aws.amazon.com/about-aws/whats-new/2025/09/aws-efa-metrics-improved-observability-networking
---
<!-- AI_TASK_START: AI标题翻译 -->
[新产品/新功能] EFA 新增指标以提升 AWS 网络可观测性
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
AWS为其**弹性结构适配器 (Elastic Fabric Adapter, EFA)** 服务新增了五项网络可观测性指标,旨在增强对AI/ML和**高性能计算 (HPC)** 工作负载的网络监控与故障诊断能力。**EFA**是一种专为大规模分布式计算设计的EC2网络接口,通过**操作系统旁路 (OS-bypass)** 技术提供极低的节点间通信延迟和高吞吐量,是现代AI大模型训练和科学计算集群的基石。
本次更新引入的指标包括重传数据包与字节数、重传超时事件、远程连接受损事件以及远程接收器无响应事件。这些指标作为**EFA**设备级别的硬件计数器实现,从实例启动或驱动重置后开始累积数据。它们通过Linux的`sys`文件系统暴露,允许用户通过命令行直接访问,或通过**Prometheus**等监控代理抓取,并集成到**Grafana**等第三方工具中进行可视化和告警。
- **目标用户群**:在AWS上运行大规模、网络密集型应用的AI/ML工程师、HPC系统管理员以及云网络工程师。
- **市场定位**:此功能是AWS在AI/HPC基础设施领域的一次深度优化,旨在提升其平台的专业性、易用性和稳定性,通过提供更精细化的性能洞察,巩固其在高端云计算市场的领导地位,与Azure的InfiniBand和Google的TPU网络等竞品方案竞争。
## 关键客户价值
- **主动式性能瓶颈诊断**
- **业务价值**:使用这些新指标,用户可以从被动响应应用故障转变为主动识别潜在的网络拥塞、节点配置错误或硬件问题。例如,“重传数据包”指标的激增可能预示着网络拥塞。这能显著减少大规模训练任务因网络问题导致的性能下降或中断,从而节约昂贵的计算成本并加速模型迭代。
- **差异化优势**:传统的网络监控工具(如ping或CloudWatch基础网络指标)无法洞察**EFA**这种基于**可靠连接 (Reliable Connection, RC)** 协议的低延迟网络内部状态。这些新指标提供了对OS-bypass通信链路层面的深度可见性,这是通用监控方案无法比拟的。相比竞品,AWS将这些底层硬件指标直接、便捷地暴露给用户,并简化了与主流开源监控生态的集成,降低了复杂HPC环境的运维门槛。
- **提升集群运维效率与自动化水平**
- **业务价值**:通过与**Prometheus**和**Grafana**等行业标准工具链的无缝集成,运维团队可以构建自动化的网络健康监控仪表盘和告警系统。这使得对数千个节点组成的庞大集群进行集中管理成为可能,能够快速定位并隔离问题节点,极大提升了故障排查效率。
- **实现机制**:指标通过标准的`sys`文件系统接口暴露,这是一种开放且通用的方式,易于被各类监控代理(如`node_exporter`)采集。这种设计避免了厂商锁定,允许客户将其融入现有的、异构的监控体系中。
- **优化计算资源利用率**
- **业务价值**:在AI大模型训练等场景中,计算节点(如P5、Trn1实例)的成本极其高昂。网络延迟或丢包会导致GPU等计算单元处于空闲等待状态,造成严重的算力浪费。通过及时发现并解决网络瓶颈,可以确保计算资源始终保持高利用率,最大化客户的投资回报。
## 关键技术洞察
- **基于硬件卸载的底层状态暴露**
- **技术独特性**:这些指标并非由CPU密集型的软件代理生成,而是直接源自**AWS Nitro v4**硬件系统上的**EFA**网络设备。这种硬件层面的监控确保了指标的实时性和准确性,并且对正在运行的应用程序性能影响几乎为零。
- **工作原理**:**EFA**使用基于业界标准传输服务构建的**可扩展可靠数据报 (Scalable Reliable Datagram, SRD)** 协议。新增的重传、超时等指标正是对SRD协议栈内部关键事件的直接度量,为用户揭示了OS-bypass通信链路的真实健康状况,这是前所未有的透明度。
- **对分布式系统弹性的间接增强**
- **技术影响**:“远程连接受损”和“远程接收器无响应”等指标为上层应用框架(如MPI、NCCL、PyTorch FSDP)提供了判断远端节点健康状况的底层信号。这使得分布式调度器或训练框架能够更智能地识别和处理“慢节点”或故障节点,例如通过动态调整通信策略或触发故障恢复流程,从而提升整个分布式集群的稳定性和容错能力。
## 其他信息
- **平台依赖性**
- 该功能有明确的软硬件版本要求,必须在基于**Nitro v4**系统或更新版本的EC2实例上使用,并需安装`1.43.0`或更高版本的**EFA**驱动程序。这表明该功能是AWS软硬件协同设计和垂直整合能力的体现,旧有平台无法通过单纯的软件升级获得此能力。
- **全球服务一致性**
- 新功能在发布之初即覆盖所有AWS商业区域、GovCloud(美国)区域和中国区域,体现了AWS在全球范围内提供统一、标准化服务的能力,便于跨国企业在不同地域部署和运维其HPC/AI工作负载。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 推出新的 EFA 指标,提升 AWS 网络的可观测性
**原始链接:** [https://aws.amazon.com/about-aws/whats-new/2025/09/aws-efa-metrics-improved-observability-networking](https://aws.amazon.com/about-aws/whats-new/2025/09/aws-efa-metrics-improved-observability-networking)
**发布时间:** 2025-09-12
**厂商:** AWS
**类型:** WHATSNEW
---
# 推出新的 EFA 指标,提升 AWS 网络的可观测性
发布于:2025年9月12日
今天,AWS 推出了五项新的 Elastic Fabric Adapter (EFA) 指标,以增强人工智能/机器学习 (AI/ML) 和高性能计算 (HPC) 工作负载的网络可观测性。这些新指标通过跟踪重传数据包和字节、重传超时事件、远程连接受损事件以及远程接收器无响应事件,帮助诊断性能问题。
借助这些新指标,您可以监控网络拥塞或实例配置问题,从而及时采取措施来维持应用程序性能。这些指标在每个 EFA 设备级别上以计数器的形式实现,从实例启动或最近一次驱动程序重置开始累积数据。这些指标计数器存储在 sys 文件系统中,可通过实例命令行进行访问。为了增强监控和告警能力,您可以将这些指标集成到 Prometheus 脚本中,以便导出到 Grafana 等第三方工具,用于创建仪表板和设置告警。新指标适用于 Nitro v4 (及更高版本) 的实例,并要求 EFA 安装程序版本为 1.43.0 或更高。要获取完整的指标列表并了解如何使用它们,请访问 [监控 EFA](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-working-monitor.html) 用户指南。有关基于不同 Nitro 系统版本构建的实例的完整列表,请参阅 [AWS Nitro 系统文档](https://docs.aws.amazon.com/ec2/latest/instancetypes/ec2-nitro-instances.html) 。
这些新指标已在所有商业 AWS 区域、AWS GovCloud (美国) 区域和中国区域提供支持。要了解有关 EFA 的更多信息,请访问 EFA [文档](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) 。
<!-- AI_TASK_END: AI全文翻译 -->