充值积分切换到窄版

 找回密码
 立即注册
查看: 361|回复: 0

【广发电子团队】“AI的裂变时刻”系列报告9:假如L40S使用HBM显存?——对国产推理算

[复制链接]

581

主题

6

回帖

1893

积分

管理员

积分
1893
发表于 2024-4-24 09:32:54 | 显示全部楼层 |阅读模式
【广发电子团队】“AI的裂变时刻”系列报告9:假如L40S使用HBM显存?——对国产推理算力芯片厂商的启示

若使用HBM显存,L40S推理性能可提高13倍
我们假设英伟达L40S算力参数不变,使用HBM替代GDDR。理论推算结果显示,使用HBM会显著提升推理性能;使用192GB容量、8TB/s带宽HBM时,推理性能可达原L40S芯片的约13倍。这对国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。

显存带宽直接影响Decode速度
Decode阶段通常属于显存带宽密集场景,更高的显存带宽对于加速Decode环节至关重要。根据推算,相较于使用864GB/s带宽GDDR,若使用8TB/s 带宽HBM,每次模型读取所需时间从39ms减少至4ms;相同Batch Size情况下推理性能提高至约9倍。

显存容量决定Batch Size上限
增大Batch Size可提高推理效率;根据推算,48GB容量GDDR6支持的最大Batch Size为16;若使用192GB容量HBM,可支持的最大Batch Size提升至64,从而有效提高了推理全流程平均每卡每秒Throughput。

超长上下文进一步提高了对显存容量、显存带宽的需求
一方面,超长上下文会使得推理过程KV Cache增大,对显存容量提出了更高的要求;另一方面,为保障用户体验,超长上下文也会对显存带宽带来更高的要求。因此,超长上下文的发展趋势也会带动对高带宽、大容量HBM显存方案的需求。

——————————————
详细推算原理、推算过程及板块观点欢迎各位领导联系。

广发电子 王亮/耿正/任思儒

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|购买会员|Archiver|手机版|小黑屋|金融学家-专业提供各个行业、公司的研究报告、分析报告

GMT+8, 2025-1-23 11:35 , Processed in 0.079330 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表