目前的AI/HPC GPU,如NVIDIA的GH200 Hopper和即将推出的Blackwell系列,旨在提供卓越的运算效能,以应对日益复杂的AI和HPC任务。然而,这些高性能晶片也通常伴随着较高的功耗。让我们具体来看看这两个世代的GPU在功耗方面的数字和差异,以及奈米核聚变NanoFusion技术可能带来的潜在优势。 Wharton Int Tech  by Frank Chen 2024.June 17

突破1Eflop!英伟达DGX GH200发布:256个GH200芯片,144TB内存_手机搜狐网

NVIDIA & SAMSUNG AI晶片高耗功率比较

NVIDIA GH200 Hopper 系列
- 基础架构:基于Hopper架构
- 制造制程:台积电 5nm
- 功耗:单一GH200 GPU的TDP(热设计功耗)约400瓦

NVIDIA Blackwell系列(预期值)
- 基础架构:基于Blackwell架构
- 制造制程:预计为台积电 3nm
- 功耗:由于是下一代高效能运算晶片,预期TDP会增加,但由于3nm制程的改进,可能会在同等或稍高的能耗下提供更高的性能,预计约为450-500瓦

Samsung vows to offer one-stop AI chip foundry solution to match TSMC - The  Korea Times

三星一站式AI解决方案
三星正在开发包括GAA(全环绕闸极架构)和光学元件技术在内的多种最佳化AI半导体解决方案。这些技术的主要目标是降低功耗并提高效能效率。
- GAA 结构有助于减少漏电流,进而降低功耗
- 光学元件技术借助高效的资料传输,可以进一步降低系统的整体功耗

奈米聚变NanoFusion 技术的潜在超优势
奈米
聚变NanoFusion是一种先进的降功耗技术,声称拥有70项专利,能够大幅降低AI和HPC系统的功耗。如果这项技术能够应用于三星和NVIDIA的高效能AI GPU,其效果可能非常显著:

1. 降低功耗:透过奈米聚变NanoFusion技术,晶片的功耗可能会降低约30-40%,这对于传统的高耗能GPU来说是一个巨大的进步。
2. 提高效率:能在不牺牲性能的情况下,达到更高的能源效率比。
3. 散热管理:降低功耗也意味着热能输出减少,这对散热管理和系统稳定性有很大的帮助。

例如,奈米聚变NanoFusion技术能够将功耗减少30%,对于一款预计功耗为450瓦的Blackwell GPU来说,其实际功耗可能会降至315瓦左右。这种改进不仅能延长设备寿命,还能减少电力成本,进而在使用大规模GPU群聚的AI和HPC中心中带来显著的经济效益和环境效益。

总结
- 高耗功率差异

高耗功率的差异与影响

综上所述,当前和未来的高效能运算(HPC)与人工智慧(AI)需求驱动着GPU技术的不断进步。然而,这种进步往往伴随着更高的功耗,这不仅增加了运行成本,也对散热和环境产生了显著影响。具体来看,

1. NVIDIA GH200 Hopper 与 NVIDIA Blackwell 系列的功耗比较

- NVIDIA GH200 Hopper:目前主流高效能GPU,功耗约400瓦。这类GPU已被广泛应用于AI训练和高阶资料分析任务。
- NVIDIA Blackwell 系列:预计未来发布的新一代高性能GPU,采用更先进的3nm制程工艺,功耗预计在450-500瓦之间。尽管制程技术更加先进,但其更高的运算能力和更复杂的架构设计,可能会整体提升功耗。

Samsung: 1.4nm by 2027, One-Stop AI Solutions! - Electronic Components  Distributor - SMBOM.COM

三星Samsung的AI优化解决方案

三星Samsung 致力于开发更有效率的AI半导体解决方案,结合 GAA 和光学元件技术,进一步降低耗电量:

- 全环绕闸极(GAA)架构:有助于显著减少漏电流,提高电力效率,这是传统FinFET技术难以实现的突破。
- 光纤资料传输技术**:减少电力资料传输的耗电量,提升整体系统效率。

奈米核融合NanoFusion 技术的潜在超优势

假如三星能够成功整合NanoFusion技术,从而实现更大幅度的功耗优化,以下可能的优势可预见:

- 显著减少功耗:如前文提到,功​​耗可减少30-40%。对于一款450瓦的高功耗GPU,实际功耗可降至约315瓦。这不仅能提升设备整体能源效率,也有助于延长设备的使用寿命。
- **提高能源效率比**:在同等功耗条件下实现更高的运算效能,这对于需要在有限电力资源内实现最大运算能力的场景尤其重要。
- 最佳化散热管理:功耗降低直接减少热输出,从而简化散热设计,提升系统稳定性与可靠性。

实际应用与商业影响

- 资料中心与云端服务供应商:对于运行大规模GPU丛集的资料中心,降低功耗可显著减少电力成本并减少散热所需的制冷电力,从而降低营运支出和碳足迹。
- **AI 研究与开发机构**:高效能低功耗的AI解决方案可提升运算资源利用率,帮助研究机构在更短时间内进行更多实验,推动AI技术与应用的快速发展。

面对日益增长的AI和HPC需求,高效能、低功耗的GPU解决方案成为市场新的焦点。透过结合奈米核融合NanoFusion技术,三星以及NVIDIA可能开创出新的半导体技术突破,显著提升运算效率,降低功耗和营运成本,最终引领未来的AI和HPC应用。

在实际应用中,透过采用更有效率的GPU技术,企业和研究机构不仅能够节约电力开支,还能够在有限的环境资源下最大限度地推动车载计算、量子计算、生物计算等新兴技术领域的发展,推动整个产业迈向新的高度。

整体来看,随着半导体技术的不断演进和优化,未来高能效GPU将不仅是学术研究与前沿应用的利器,更将在广泛的商业和工业领域中发挥重要作用,助力全球数位经济的快速发展。

环境与条件

NVIDIA 推出的第一个全新 AI/HPC GPU 系列将是 Blackwell,以 David Harold Blackwell(1919-2010)的名字命名。 GPU 将是 GH200 Hopper 系列的后继产品,并将使用 B100 晶片。该公司计划提供各种产品,包括 GB200NVL (NVLINK)、标准 GB200 和用于视觉运算加速的 B40。下一代产品线预计将在下一届 GTC(2024 年)上亮相,并于 2024 年稍后推出。

目前有传言估计 NVIDIA 将利用台积电 3nm 制程节点生产 Blackwell GPU,首批客户将于 2024 年底(第四季)交付晶片。该 GPU 预计也将成为第一个采用小晶片设计的 HPC/AI 加速器,并将与 AMD 的 Instinct MI300 加速器竞争,正如红队所吹捧的那样,后者也将成为 AI 领域的一件大事。

三星晶圆制造总经理崔时荣6月12日在矽谷「2024三星代工论坛」上说,「在所有科技皆汇流于AI的革命性时刻,关键是以高效能、低功耗的半导体,来实践人工智能”。他进一步解释,「利用我们优化AI半导体的闸极全环绕(GAA)制程技术,以及以最小功耗支持高速资料处理的光学元件技术,我们提供客户所需的全面一站式AI解决方案」。 Wharton Int Tech  by Frank Chen 2024.June 17