黄仁勋指出,生成式 AI 普及,推论成为竞争主战场。每次模型回应使用者提示,都需大量 Token 运算,考验算力与成本调度。Dynamo 作为 Triton Server 接班人,进一步提升系统效率与灵活度。他强调:「Dynamo 帮助 AI 工厂大规模服务客制化模型,节省成本,加速推论走向主流。」
黄仁勋解释,「Dynamo」名称取自工业革命时期的发电机,象征 AI 运算的革命性力量。黄仁勋表示,Dynamo 是开放式 AI 运作系统,将促进更多合作。Dynamo 已在超级电脑环境测试,展现显著成果。以相同 GPU 数量,在 Hopper 平台运行 Llama 模型时,效能与营收提升两倍;在 GB200 NVL72 机架丛集运行 DeepSeek-R1 模型时,单颗 GPU Token 产出提高超过 30 倍。
Dynamo 核心是分散式架构,将 LLM 推论的「处理」与「产生」分散到不同 GPU 执行,针对不同阶段最佳化配置。搭配四大创新技术,包括 GPU 规划器、智慧路由器、低延迟通讯函式库与记忆体管理器,提升资源运用效率。GPU 规划器可依需求动态调整 GPU 数量,智慧路由器降低重复运算,低延迟通讯库提升 GPU 间传输效率,记忆体管理器则优化资源占用,保持稳定体验。
Dynamo 完全开源,支援 PyTorch、SGLang、TensorRT-LLM、vLLM 等开发框架,降低企业与研究机构部署 AI 模型的门槛。AWS、Google Cloud、Microsoft Azure、Meta、Cohere、Perplexity、Together AI 等已将 Dynamo 纳入推论架构,生态系逐步扩展。
Perplexity AI 技术长 Denis Yarats 表示,他们每月处理亿次级 AI 查询,Dynamo 分散式设计有助提升扩充性与可靠性。Cohere 则计划利用 Dynamo 强化其 Command 系列模型的代理型 AI 功能,工程部门资深副总裁 Saurabh Baji 指出,Dynamo 满足高阶模型所需的精密调度与低延迟通讯。Together AI 技术长张策也透露,已将 Together Inference Engine 整合 Dynamo 架构,以提升推论效率并突破资源瓶颈。
技术层面,Dynamo 将 KV 快取映射至数千颗 GPU,依据请求知识匹配程度动态分配,避免重复运算,提升整体效率。此设计带来高弹性与扩展性,协助企业以更少资源满足大量推论需求。
Dynamo未来将整合至 NVIDIA NIM 微服务与 AI Enterprise 软体平台,提供企业级安全性、技术支援与稳定性。黄仁勋预期,Dynamo 将成为推论领域关键基础设施,助 AI 工厂在生成式 AI 热潮下,进一步提升运营效率与获利能力。
