辉达指出,本次发布亮点之一,是全球首款用于自动驾驶研究的开放式推理视觉语言动作(VLA)模型NVIDIA DRIVE Alpamayo-R1(AR1)。传统自驾模型在面对高复杂度场景时,常出现判断限制,但AR1将「思维链(chain-of-thought)」推理与路径规划整合,让车辆能像人类驾驶般评估情境、推论后果,再选出最佳行为路线。
举例来说,行经行人与自行车交错区时,AR1会主动整合周遭资讯,预先调整路径或为突发状况做好煞车准备,使自驾AI迈向更高阶的安全性与解释能力。
AR1基于NVIDIA Cosmos Reason打造,并以非商业用途开放,研究人员可依需求客制化模型。实验显示,AR1在后训练阶段采用强化学习后,其推理能力较预训练版本更强。NVIDIA将在GitHub与Hugging Face公开模型与训练资料子集,同步开源模拟框架AlpaSim,以支援模型评估。
除了自驾AI,NVIDIA也强化Cosmos世界基础模型(WFM)的应用,使其成为物理AI开发的核心基础。开发者可透过Cosmos Cookbook学习资料整理、合成资料、后训练等流程,打造各式实验模型。最新案例包括:能产生高拟真光达资料的LidarGen、修复模糊重建画面的NuRec Fixer、以及将影片模型转为机器人策略的Cosmos Policy等。这些工具可在Isaac Lab与Isaac Sim中训练,再应用于机器人模型如NVIDIA GR00T N。
此外,ETH Zurich等研究团队也将展示使用Cosmos生成一致3D场景的技术。1X、Figure AI、Gatik、Oxa等NVIDIA合作伙伴也正以Cosmos开发最新机器人与自驾应用,显示Cosmos已成为物理AI的重要基础平台。
在语音AI部分,NVIDIA的Nemotron与NeMo工具组则迎来一系列更新,包括多讲者语音辨识模型MultiTalker Parakeet、可快速区分多个声音来源的Sortformer、跨文字与音讯模态的安全辨识资料集、以及支援强化学习训练环境的NeMo Gym。NVIDIA也释出NeMo Data Designer Library,在Apache 2.0授权下完全开源,提供生成高品质合成资料的完整流程。
CrowdStrike、Palantir、ServiceNow等企业已运用Nemotron、生成功能强化的代理型AI,显示其工具组已在企业采用中加速落地。
研究方面,NVIDIA在NeurIPS提交超过70篇论文,其中语言AI领域成果备受关注,包括音讯语言模型Audio Flamingo 3、模型压缩技术Minitron-SSM、后训练架构搜寻Jet-Nemotron、小型高效语言模型Nemotron-Flash,以及延长训练时间提升推理力的ProRL等,全面展示NVIDIA在模型效率、多模态与推理能力上的突破。
透过跨数位AI、物理AI、自驾与语音的全面开源布局,NVIDIA不仅获得Artificial Analysis「Openness Index」高度肯定,也以更完善的生态系工具组,强化研究社群在下一世代AI竞争中的基础。
點擊閱讀下一則新聞