乐于分享
赠人玫瑰之手,经久犹有余香

AI算力 HBM、Chiplet和CPO技术

大语言模型涉及对高性能(如 、TPU)、大规模高质量数据集的需求以及软件的提高等多方面要求。

1.HBM 技术:高吞吐高带宽, 带动需求激增

HBM(High Bandwidth Memory)意为高带宽存储器,是一种硬件存储介质,是高性能 GPU 的核心组件。HBM 具有高吞吐高带宽的特性,受到界和学术界的关注。它单颗粒的带宽可以达到 256 GB/s,远超过 DDR4 和 GDDR6。DDR4 是 和硬件处理单元的常用外挂存储设备,但是它的吞吐能力不足以满足当今计算需求,特别是在 AI 计算、和数字货币挖矿等大数据处理访存需求极高的领域。GDDR6 也比不上 HBM,它单颗粒的带宽只有 64 GB/s,是HBM 的 1/4。而 DDR4 3200 需要至少 8 颗粒才能提供 25.6 GB/s 的带宽,是 HBM 的 1/10。

HBM 使用多根数据线实现高带宽,完美解决传统存储效率低的问题。HBM 的核心原理和普通的 DDR、GDDR 完全一样,但是 HBM 使用多根数据线实现了高带宽。HBM/HBM2 使用 1024 根数据线传输数据,作为对比,GDDR 是 32 根,DDR 是 64 根。HBM 需要使用额外的硅联通层,通过晶片堆叠技术与处理器连接。这么多的连接线保持高传输频率会带来高功耗。因此 HBM 的数据传输频率相对很低,HBM2 也只有 2 Gbps,作为对比,GDDR6 是 16 Gbps,DDR4 3200 是3.2 Gbps。这些特点导致了 HBM 技术高成本,容量不可扩,高延迟等缺点。

5302957a-dbb6-11ed-bfe3-dac502259ad0.png

530b0e58-dbb6-11ed-bfe3-dac502259ad0.png

HBM 可以被广泛的应用到汽车高带宽存储器,GPU 显存,部分 CPU 的内存芯片,边缘 AI加速卡,Chiplets 等硬件中。在高端 GPU 芯片产品中,比如 NVDIA 面向数据中心的 A100 等加速卡中就使用了 HBM;部分 CPU 的内存芯片,如目前富岳中的 A64FX 等 HPC 芯片中也有应用到。车辆在快速移动时,摄像头、会捕获大量的数据,为了更快速的处理数据,HBM是最合适的选择。Chiplets 在设计过程中没有降低对内存的需求,随着异构计算(尤其是小芯片)的发展,芯片会加速对高带宽内存的需求,无论是 HBM、GDDR6 还是 LPDDR6。

HBM 缓解带宽瓶颈,是 AI 时代不可或缺的关键技术。AI 处理器架构的探讨从学术界开始,当时的模型简单,算力低,后来模型加深,算力需求增加,带宽瓶颈出现,也就是 IO 问题。这个问题可以通过增大片内缓存、优化调度模型等方法解决。但是随着 AI 大模型和云端 AI处理的发展,计算单元剧增,IO 问题更严重了。要解决这个问题需要付出很高的代价(比如增加 DDR 接口通道数量、片内缓存容量、多芯片互联),这便是 HBM 出现的意义。HBM 用晶堆叠技术和硅联通层把处理器和存储器连接起来,把 AI/完全放到片上,提高集成度,降低功耗,不受芯片引脚数量的限制。HBM 在一定程度上解决了 IO 瓶颈。未来的数据量、计算量会越来越大,超过现有的 DDR/GDDR 带宽瓶颈,HBM 可能会是唯一的解决方案。

巨头领跑,各大存储公司都已在 HBM 领域参与角逐。SK 海力士、、美光等存储巨头在HBM 领域展开了升级竞赛,国内佰维存储等公司持续关注 HBM 领域。SK 海力士早在 2021 年10 月就开发出全球首款 HBM3,2022 年 6 月量产了 HBM3 芯片,并将供货,持续巩固其市场领先地位。三星也在积极跟进,在 2022 年技术发布会上发布的内存技术发展路线图中,HBM3 技术已经量产。

赞(0) 打赏
未经允许不得转载:思脉网 » AI算力 HBM、Chiplet和CPO技术
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

大前端WP主题 更专业 更方便

联系我们联系我们

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫打赏

微信扫一扫打赏