GTC 2024前瞻:见证AI的变革时刻
GTC 2022:硬件为主,发布全新Hopper 架构H100 GPU及Grace CPU 超级芯片, 第四代NVLink和第三代NVSwitch技术、 DGX H100 SuperPOD等。
GTC 2023:侧重软件及服务更新,发布 及更新H100 NVL GPU,PCIe H100等硬 件,以及AI超级计算服务DGX Cloud、 光刻计算库CuLitho、GPU加速量子计算 系统等。
GTC 2024:当地时间3月18-21日举行, 黄仁勋将发表主题演讲“见证AI的变革 时刻”,发布加速计算、生成式AI以及 机器人领域突破性成果。
会议期间将举办超过1000场演讲、圆桌 讨论、培训等各种活动,来自英伟达、 Meta、微软、斯坦福等业界及学术界众 多权威AI研究者将参加200多场会议。 共有1000多家企业将参加本届GTC,包 括但不限于亚马逊、OpenAI、微软、 Meta、谷歌等AI巨头以及Anthropic、 Cohere、Runway等AI初创企业。300多 家参展商将展示企业如何在航空航天、 农业、汽车和运输、云服务、金融服务、 医疗和生命科学、制造、零售和电信等 各行业部署英伟达平台。
关注一:Blackwell GPU架构及B100
英伟达有望在GTC 2024上发布B100 及B200系列。B100将首次采用 Blackwell架构,基于更复杂的多芯片 模块(MCM)设计,与现有采用 Hopper架构的H200系列相比性能有 望翻倍提升,预计使用台积电3nm或 N4P工艺制程,功耗或达1000W,采 用液冷方案, 2024Q2/Q3开始规模生 产。此外,根据英伟达最新官方路线 图及IT之家报道,预计2024-2025年 之间推出GB200,或采取差异化策略 推动客户采购,加大其与B100/B200 之间的配置差距,特别在NVLink和 网络性能方面。
B100预计配套全新组件。此外根据路 线图,英伟达将于2024年底前推出速 度更快、功能更强大的 InfiniBand 和 以太网 NIC 以及交换机,每个端口 的带宽可达 800Gb/s,本次大会上或 将有所透露。
据Barron’s报道,英伟达将于2025年 推出B200 GPU,单张功耗达1000W, 升级后的B200变体可能采用更快版本 的HBM内存,以及更高的内存容量, 升级规格和增强功能。
关注二:具身智能/人形机器人/自动驾驶
人形机器人:AgilityRobotics、波士顿动力公司、迪士尼和Google DeepMind等公司将参会,现场将展出25款机器人,包括人形机器人、 工业机械手等。英伟达于2018年推出包含全新硬件、软件和虚拟世界机器人模拟器的NVIDIA Isaac,同时还推出专为机器人设计的计 算机平台Jetson Xavier和相关的机器人软件工具包,2023年发布多模态具身智能系统VIMA和自主移动机器人平台Isaac AMR。同时, 英伟达通过仿真模拟平台Omniverse与AI结合,帮助建立训练数据集,23年3月Omniverse Cloud托管至微软Azure,以扩大英伟达AI机器 人开发和管理平台Isaac Sim的接入范围。2024年2月英伟达向人形机器人公司Figure AI投资5000万美元并成立通用具身智能体研究实验 室GEAR,人形机器人作为具身智能优良载体,有望迎来加速发展。
自动驾驶:2022年英伟达发布全新一代自动驾驶SoC芯片Thor,内部拥有770亿个晶体管,算力高达2000TFLOPS,较此前Orin提升8倍, 计划2024年量产,极氪将于2025年搭载首发。
关注三:AI推理/边缘计算
GTC2024有望更新以太网架构及产品、ASIC芯片计划等相关信息。英伟达FY2024数据中心业务收入40%来自AI推理,AI在汽车、医 疗和金融服务等垂直领域广泛应用,其正在推出全新Spectrum-X端到端产品进入以太网领域,引入新技术为AI处理提供较传统以太网 高1.6倍的网络性能。根据路透社报道,英伟达正在建立新业务部门,专注为云厂商及其他企业设计定制芯片(ASIC),包括先进的AI 处理器。
本次GTC共有亚马逊、Anthropic、Runway等1000多家参会企业,会上将展示英伟达平台在农业、汽车、云服务等行业的应用,英伟达、 HuggingFace、Zalando、AWS、微软、Cloudflare、谷歌等将参加AI推理相关会议。
生成式AI在影视上的应用将被重点展示。中国游戏厂商腾讯、网易,以及传媒巨头奈飞、皮克斯、迪士尼动画工作室等均将参与游戏/ 传媒娱乐讨论,可能探讨如何利用生成式AI和路径追踪技术创造更加逼真的虚拟人物和世界,辅助游戏开发和影视制作;Runway、腾 讯及Digitrax等有望介绍其文生图、文生视频模型及其他AI应用。其他可能被讨论的应用包括3D内容生成、云端创作游戏等。
2万亿美元可寻址市场(TAM):英伟达预计随着通用AI技术发展,目前1万亿美元数据中心基础设施安装量(可寻址市场,TAM)将 在未来五年翻一番。AI设备有望替换掉所有的传统计算。
BlackWell架构演进
英伟达每隔1-2年提出新的芯片架构以适应计算需求升级。2017年提出Volta架构,专注深度学习和AI应用,并引入Tensor Core,2020年 Ampere架构在计算能力、能效和深度学习性能方面大幅提升,采用多个SM和更大的总线宽度,提供更多CUDA Core及更高频率,引入 第三代Tensor Core,具有更高的内存容量和带宽,适用于大规模数据处理和机器学习任务。2022年发布Hopper架构,支持第四代 TensorCore,采用新型流式处理器,每个SM能力更强。
Blackwell:或为英伟达首次采用多chiplet设计的架构,一方面可能简化基于Blackwell架构的GPU硅片层面生产,最大限度提高小型芯 片产量,另一方面,多芯片封装将更加复杂。预计SM和CUDA将采用新结构,光线追踪性能等将进一步优化和加强,RT单元有可能被 PT单元所取代,以实现对Ada Lovelace架构的性能翻倍。Blackwell架构GPU很可能会支持GDDR7内存,相比GDDR6X效率更高,鉴于 第一代 GDDR7 SGRAM IC将具有32GT/s 的传输数据速率,采用这些芯片的384位内存子系统将提供约1536 GB/s 的带宽。与 Hopper/Ada架构不同,Blackwell或将扩展到数据中心和消费级GPU,但消费级场景或将延续单芯片设计,以实现时间可控及低风险。
B100:性能翻倍,带宽、显存等大幅提升
B100:预计为MCM多芯片封装,台积电N3或N4P制程工艺,可能使用CoWoS-L,性能预计至少为H200的2倍,相当于H100的4倍;首 发内存或为200G HBM3e,约为H200的140%;参考历代NVLink迭代,预计双向带宽有望较H100接近翻倍,或采用224Serdes。
为了更快推向市场,B100前期版本或使用PCIe5.0和C2C式链接,功耗700W,方便直接沿用H100的现有HGX服务器,以大幅提高供应 链更早提高产量和出货量的能力。后续将推出1000W版本,转向液冷,并将通过ConnectX8实现每GPU网络的完整800G。这些 SerDes 对于以太网/InfiniBand 仍然是 8x100G。虽然每个 GPU 的网络速度翻倍,但基数减半,因为它们仍然必须经过相同的 51.2T 交换机。
B100预计2024H2规模出货。MorganStanley预计2024年英伟达CoWoS需求量15万片,对应AI GPU出货量400万张,其中H100/B100分别 为377万张/28万张。
英伟达加快液冷方案布局
英伟达积极与行业伙伴合作创新液冷方案。2022年推出基于直接芯片冷却技术(Direct-to-chip)的A100 800G PCIe液冷GPU,较风冷版 本性能相当,电力节省约30%,单插槽设计节省最多66%的机架空间。
2023年,与Vertiv、BOYD、Durbin、霍尼韦尔等6家行业伙伴合作打造混合液冷创新方案,将芯片直接冷却、泵送两相(P2P)和单相 浸没式冷却集成在带有内置泵和液体-蒸汽分离器的机架歧管中,使用两相冷板冷却芯片,其余具有较低功率密度的服务器组件将浸没 在密封的浸没式箱体内,服务器使用绿色制冷剂分别进行两相冷却和浸没冷却。相较当前无法处理高于400W/cm²功率密度的液冷,混 合冷却支持服务器机架功率高达200kW,是目前的25倍,与风冷相比成本至少降低5%,冷却效率提高20%。
同时与台积电、高力等合作开发AI GPU浸没式液冷系统。
2024年3月,Vertiv与英伟达专家团队共同针对GPU型高密数据中心制冷方案进行研发测试并发布实测数据,结果显示冷板液冷和风冷 的创新风液混合制冷方案中大约75%的IT负载可通过冷板液冷技术实现有效冷却, IT负载从100%风冷转型为75%液冷的方案时,服务 器风扇用电量降低最多达到80%,使总体使用效率(TUE)提高15%以上。
英伟达下一代GPU展望
产品性能进一步加快提升。根据Bloomberg,英伟达可能在2026年推出下一代数据中心GPU N100,N100的GPU芯片数量可能由B100的 2个增加到4个,每个芯片的尺寸相似,尽管GPU芯片总面积可能翻倍,性能跃进将更加显著。N100预计采用台积电N3E工艺,晶体管 密度或增加50%,芯片内存可能升级到全新一代HBM4。封装设计将同步升级以扩大芯片尺寸,可能加速热压缩键合(TCB)和混合键 合技术应用。 芯片算力、工艺及互连等组网方案升级将持续带动交换机、光模块等相关硬件创新迭代,LPO、硅光、CPO等新技术有望加快推进。
GPU迭代加速1.6T光模块升级
光模块趋势向高速率发展。AIGC等技术的快速发展带来数据量呈指数级增长,设备与设备之间的亦需要更大带宽连接,因此光模块需要向更 高带宽发展。现有光模块带宽主要以100G/200G/400G,目前正朝着800G、1.6T甚至更高的带宽发展。
交换机芯片密度的提升有望带来1.6T加速放量。数据中心交换芯片的演变趋势基本上处于每两年翻一番的快速增长,25.6T交换芯片用7nm工 艺,51.2T则需要选择5nm工艺节点,预计2025年3nm工艺节点可实现,并支持交换芯片能实现102.4T的容量。对于102.T的交换容量,则需要 1.6T光模块,光口每波长速率需要达到200G。我们预计2024年1.6T有望小批量出货,2025年1.6T即可进入产业化节点。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
英伟达GTC专题分析:新一代GPU、具身智能与AI应用.pdf
英伟达公司研究:超级工厂是怎样炼成的.pdf
英伟达2024 GTC大会要点梳理.pdf
英伟达研究报告:百川终将归海,AI奇点到来.pdf
英伟达研究报告:受益数据中心AI芯片高景气度,上游供应链响应快速.pdf
英伟达研究报告:加速,规模,超线性.pdf
PCB行业专题报告:GB200单颗GPUHDI价值量有望提升,产业链迎新机遇.pdf
超威半导体研究报告:CPU攻城略地,GPU仍需磨炼.pdf
景嘉微研究报告:国产GPU老兵,高效研发促进产品革新.pdf
GPU行业专题报告:GPU框架,从ROCm、Pytorch看生态壁垒.pdf
金工深度研究: 高频因子计算的GPU加速.pdf
AI搜索专题报告:怎么看Kimi的空间?.pdf
边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf
人形机器人专题报告:AI驱动,未来已来.pdf
建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf
2024年AI营销应用解析报告.pdf