AI 工厂的发展需要全新的运算基础设施,与传统资料中心不同,AI 工厂透过将大量资料转换为即时洞察,实现智慧的制造。这一目标要求在低成本的情况下,能够快速且准确地提供服务。随著 AI 模型变得更为复杂,每个词元的计算需求不断增加,如何维持高推论效率并降低成本,成为挑战。为此,必须在硬体、网路系统及软体堆叠的各个层面进行创新。
在此次测试中,MLPerf Inference 基准新增了 Llama 3.1 405B 这一开放权重模型,其规模巨大且运行难度高,并要求更严格的延迟条件,能更真实地反映生产部署环境的挑战。与 Llama 2 70B 相比,新的测试对效能的要求更高,特别是在回应用户查询方面,延迟要求更加严苛。
搭载 72 颗 NVIDIA Blackwell GPU 的 GB200 NVL72 系统,其在 Llama 3.1 405B 测试中的效能比使用 NVIDIA H200 NVL8 提交的结果高出 30 倍。这一成就源自于每颗 GPU 效能的三倍提升,并且在 NVIDIA NVLink 互连网域的支持下,带来九倍的效能增长。

NVIDIA 也在测试中展示了 Hopper 平台的卓越效能,该平台支援了各种工作负载,并在 Llama 2 70B 上取得了显著提升。相较于去年,Hopper 平台的效能提升了 1.5 倍,并且支援了更大规模的 AI 模型与更具挑战性的使用情境。
15 家合作伙伴在此次测试中也取得了优异成绩,包括华硕、思科、CoreWeave、戴尔科技集团、富士通、技钢科技(Giga Computing)、Google Cloud、慧与科技、Lambda、联想集团、Oracle Cloud Infrastructure、云达科技、美超微、Sustainable Metal Cloud 和 VMware。
MLCommons 致力于持续发展 MLPerf Inference 基准套件,以跟上 AI 领域的最新发展,并为生态系提供严谨且经同业审查的效能数据,这对协助 IT 决策者选择最佳的 AI 基础架构而言至关重要。
