【广发电子团队】“AI的裂变时刻”系列报告9：假如L40S使用HBM显存？——对国产推理算

jrxj · 发表于 2024-4-24 09:32:54

【广发电子团队】“AI的裂变时刻”系列报告9：假如L40S使用HBM显存？——对国产推理算力芯片厂商的启示

若使用HBM显存，L40S推理性能可提高13倍
我们假设英伟达L40S算力参数不变，使用HBM替代GDDR。理论推算结果显示，使用HBM会显著提升推理性能；使用192GB容量、8TB/s带宽HBM时，推理性能可达原L40S芯片的约13倍。这对国产推理算力芯片厂商产品定义与设计带来启示：使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。

显存带宽直接影响Decode速度
Decode阶段通常属于显存带宽密集场景，更高的显存带宽对于加速Decode环节至关重要。根据推算，相较于使用864GB/s带宽GDDR，若使用8TB/s 带宽HBM，每次模型读取所需时间从39ms减少至4ms；相同Batch Size情况下推理性能提高至约9倍。

显存容量决定Batch Size上限
增大Batch Size可提高推理效率；根据推算，48GB容量GDDR6支持的最大Batch Size为16；若使用192GB容量HBM，可支持的最大Batch Size提升至64，从而有效提高了推理全流程平均每卡每秒Throughput。

超长上下文进一步提高了对显存容量、显存带宽的需求
一方面，超长上下文会使得推理过程KV Cache增大，对显存容量提出了更高的要求；另一方面，为保障用户体验，超长上下文也会对显存带宽带来更高的要求。因此，超长上下文的发展趋势也会带动对高带宽、大容量HBM显存方案的需求。

——————————————
详细推算原理、推算过程及板块观点欢迎各位领导联系。

广发电子王亮/耿正/任思儒

		自动登录	找回密码
密码			立即注册