NVIDIA表示,已经在25日举行三场教学活动,内容涵盖混合式液冷技术解决方案如何协助资料中心转换成为更节能的基础设施,以及包括大型语言模型(LLM)驱动的代理等AI 模型如何协助工程师设计新一代处理器。NVIDIA Blackwell 演讲活动将于 8 月 26 日(周一)登场,当中将重点介绍新的架构细节,以及在 Blackwell 晶片上执行生成式 AI 模型的范例。

这些内容共同展现出 NVIDIA 工程师如何在资料中心运算与设计的每个领域进行创新,以提供前所未有的效能、效率与最佳表现。

众所瞩目的下一代Blackwell架构,NVIDIA表示,Blackwell是全堆叠运算的终极挑战由多种 NVIDIA 晶片组成,包括 Blackwell GPU、Grace CPU、BlueField 资料处理单元、ConnectX 网路介面卡、NVLink Switch、Spectrum 乙太网路交换器和 Quantum InfiniBand 交换器。

NVIDIA 架构总监 Ajay Tirumala 与 Raymond Wong 将率先介绍 Blackwell 平台,并且解释这些技术如何相互配合,在提高能源效率之际,又写下 AI 与加速运算效能的全新标准。

NVIDIA GB200 NVL72 解决方案就是完美的例子。LLM 推论作业需要低延迟、高输送量的词元产出。GB200 NVL72 可以统掌全局,将 LLM 工作负载的推论速度提高 30 倍,能够即时执行有著上兆个参数的模型。

Tirumala 与 Wong 还将讨论 NVIDIA Quasar Quantization系统如何支援让低精准度模型达到高精确度,并且重点介绍使用 LLM 与视觉生成式 AI 的范例。这个系统结合演算法创新、NVIDIA 软体库与工具,以及 Blackwell 第二代 Transformer 引擎。

随著研究人员开发出结合气冷与液冷的混合式冷却技术,以更有效率且更符合永续精神的方式解决资料中心过去面临的冷却问题,以前使用气冷式技术所发出的嗡嗡声或许会从此消失。NVIDIA说明,液冷技术比气冷技术可以更有效率地将热度从系统中带走,使得运算系统在处理大量工作负载时同样能保持低温。而与气冷系统相比,液冷设备占用的空间更小,用电量也更少,这么一来资料中心便能加入更多伺服器机架,以提高运算能力。

NVIDIA 资料中心冷却与基础设施部门总监 Ali Heydari 将介绍数种设计采用混合式冷却技术资料中心的方式。

部分设计是将现有的气冷式资料中心改为使用液冷式装置,以简单方便的方式为现有机架加入液冷功能。其他设计则需要安装管道,以便使用冷却液分配装置或将伺服器完全浸入冷却槽,以液冷方式直接冷却晶片。这些选项虽然一开始要投入较大金额,却能大幅节省能源消耗量和营运成本。

Heydari 还将分享他的团队在进行美国能源部开发先进资料中心冷却技术 COOLERCHIPS 计划的部分研究成果。该团队在这项计划中使用 NVIDIA Omniverse 平台来建立有著物理根据的数位孪生模型,这将有助于他们模拟能源消耗情况和冷却效率,以设计出最佳的资料中心。

在极小的方寸之间要设计半导体,可谓一项艰巨难题。开发尖端处理器的工程师要在几英吋宽的晶片上尽量塞入最大的运算能力,简直就是在测试物理上可能达到的极限。

AI 模型可以提高设计品质和生产力,提高人工作业流程的效率,自动执行一些耗时的工作,以支援工程师的工作。这些模型包括协助工程师快速分析和改善设计的预测和最佳化工具,以及可以协助工程师回答问题、产生程式码、执行设计除错等作业的 LLM。

NVIDIA 设计自动化研究部门总监 Mark Ren 将在教学活动中简单介绍这些模型及其用途。而他在第二场活动中,将重点介绍如何使用以代理为基础的 AI 系统来协助设计晶片。

LLM驱动的 AI 代理能接受指导后自主完成任务,这样就能在各行各业中创造出更多的应用方式。NVIDIA 研究人员正在开发以代理为基础的系统来协助设计微处理器,这些系统能够使用自订的电路设计工具进行推论并采取行动、与经验丰富的设计人员互动,并且从人类与代理的经验资料库中学习。

NVIDIA 的专家们不只是开发,自己也使用这项技术。Ren 将分享工程师如何使用 AI 代理进行时序报告分析、单元丛集最佳化(cell cluster optimization)流程和产生程式码的范例。单元丛集最佳化的研究成果日前在第一届 IEEE LLM 辅助设计国际研讨会(IEEE International Workshop on LLM-Aided Design)中获得最佳论文奖。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
台塑集团去年获利缩水8成 今公布年终奖金保底3个月