一,高算力AI应用呼唤高性能内存芯片
ChatGPT等高算力AI应用的火爆将基础设施端逐渐推向前台。
三星内存副总裁Kim Jae-joon曾说,ChatGPT等基于自然语言技术的交互式AI应用的发展有利于提升内存需求。高效且大量的运算能力、高容量的内存,是AI学习与推论模型的根基。
目前,搭载于新兴AI应用的内存芯片亟待升级。
首先,ChatGPT这类生成式AI应用需要在海量的训练数据中进行学习,才能实现高质量的生成输出。为了实现关键词识别、图像识别等功能,AI模型需要存储大量的图片和音频信息。
其次,面向C端用户的AI应用必须具备快速处理数据的能力,才能向用户实时输出AI计算结果,因此也对内存芯片的数据传输速度提出了更高要求。
与此同时,随着人工智能技术的进一步普及,越来越多的AI应用发生在移动设备和物联网终端设备上,而这些设备大多采用电池供电或充电,对功耗十分敏感。
如此一来,以HBM为代表的超高带宽内存技术有望成为相关加速芯片的必然选择,同时生成类模型也会加速HBM内存进一步增大容量和增大带宽。
除了HBM之外,CXL(计算快速链接)等新的存储技术加上软件的优化也有将在这类应用中增加本地存储的容量和性能,估计会从生成类模型的崛起中获得更多的工业界采用。
二,何为HBM?
HBM是一种基于3D堆叠工艺的DRAM内存芯片,它就像摩天大厦中的楼层一样可以垂直堆叠。基于这种设计,信息交换的时间将会缩短。这些堆叠的数颗DRAM芯片通过称为“中介层(Interposer)”的超快速互联方式连接至CPU或GPU,最后可将组装好的模块连接至电路板。
HBM重新调整了内存的功耗效率,能大幅提高数据处理速度,是当下速度最快的DRAM产品,其每瓦带宽比GDDR5高出3倍还多,且HBM比GDDR5节省了94%的表面积。
目前,HBM主要被安装在GPU、网络交换及转发设备(如路由器、交换器)、AI加速器、超级计算机及高效能服务器上。
首尔业界消息称,SK海力士为英伟达供应第三代HBM,搭配英伟达的A100 GPU供ChatGPT使用。另外,英伟达已经将SK海力士的第四代HBM安装至H100,而H100已开始供应ChatGPT服务器所需。
另一方面,三星已开发出具运算能力的HBM,不但能储存数据、还能运算数据。三星已在2022年10月向AMD供应该产品,用于AI加速器。
如今第三代HBM报价飞涨,已是效能最高的DRAM产品的五倍之多,其市场成长率是三星、SK海力士原本预测的两倍以上
三,CXL为何物?
CXL是英特尔推出的标准。在2019年,英特尔推出了CXL(Compute Express Link),是高度中央处理器到设备和CPU到内存链接的开放标准。其推出的目的在于简化加速器和内存扩展的互连和可扩展性。
推出的同年,CXL就已经成立了联盟,其创始成员包括:英特尔、阿里巴巴、华为、思科、facebook、谷歌、惠普和微软等。
CXL作为一种全新的互联技术标准,其能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求,并且其维护CPU内存空间和连接设备内存之间的一致性。总体而言,其优势高度概括在极高兼容性和内存一致性两方面上。
CXL技术之所以值得期待,是因为它提出了一种有效解决当下业界颇为头疼的内存墙和IO墙问题的方式。
内存墙和IO墙现象来源于当前计算架构中的多级存储。如图所示,当前的主流计算系统所使用的数据处理方案,依赖于数据存储与数据处理分离的体系结构(冯诺依曼架构),为了满足速度和容量的需求,现代计算系统通常采取高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储结构。
每当应用开始工作时,就需要不断地在内存中来回传输信息,这在时间和精力上都有着较大的性能消耗。越靠近运算单元的存储器速度越快,但受功耗、散热、芯片面积的制约,其相应的容量也越小。如SRAM响应时间通常在纳秒级,DRAM则一般为100纳秒量级,NAND Flash更是高达100微秒级,当数据在这三级存储间传输时,后级的响应时间及传输带宽都将拖累整体的性能,形成“存储墙”。
IO墙则产生于外部存储中,因为数据量过于庞大,内存里放不下就需要借助外部存储,并用网络IO来访问数据。IO方式的访问会使得访问速度下降几个数量级,严重拖累着整体性能,这即是IO墙。
现代处理器性能的不断提升,而内存与算力之间的技术发展差距却不断增大。业界数据显示,在过去的20多年中,处理器的性能以每年大约55%速度快速提升,而内存性能的提升速度则只有每年10%左右。并且,当代内存容量扩展面临着摩尔定律的压力,速度在逐年减缓的同时,带来的则是成本的愈发高昂。随着大数据AI/ML等应用爆发,以上问题已经成为制约计算系统性能的主要因素。
四,从CXL1到CXL3,内存池和内存共享的奇妙构想
作为一项崭新的技术,CXL发展非常可谓非常迅速,过去四年时间CXL已经发表了1.0/1.1、2.0、3.0三个不同的版本,并且它有着非常清晰的技术发展路线图,业界也对它的未来充满期待。
CXL1.1还只限于单一Node,是一种CPU到CPU,或者CPU到PCIe设备的cache一致性互联。2.0技术加入了一层(Single Level)的Switch(想一想PCIe的Switch),实现了多个设备连接到一个root port上,为后面的池化打下了技术基础。
上图的H1到H4到Hn指的是一个个不同的主机(Host),也就是一个个服务器(Server),它可以通过CXL Switch连接多个设备,底下的D1、D2、D3、D4指的是不同的内存,也是通过CXL Switch连到上层的主机里。图中不同的颜色代表设备的拥有者,如D1属于H2,D2和D3属于H1。SLD一个设备只能被分配到一个Hos上。
在这套框架之下,它使得Memory Polling(内存池)成为可能,你可以跨系统设备实现共享内存池,这就增加了很多的灵活性。比如,如果有机器内存不够时,就可以灵活地在这个池子里寻找内存空间;如果这台机器不需要这些内存了还可以随时还回来。也就是说越靠近CPU的存储器(如DRAM)将被用来处理更为亟需的工作,这无疑将大大提高内存的使用率,或者降低内存的使用成本。
CXL 3.0是在2022年8月份发布的新标准,其在许多方面都进行了较大的革新,首先,CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其带宽提升了两倍,并且其将一些复杂的标准设计简单化,确保了易用性。
五,各大厂商均积极拥抱CXL技术浪潮:
CXL作为一项崭新的技术,各大厂家都在抢先布局,目前大陆选手在CXL领域并未落后,部分厂家甚至表现出彩。
1,英特尔:携手阿里巴巴、思科、戴尔EMC、Facebook、谷歌、HPE、华为以及微软等公司成立CXL开放合作联盟,旨在共同合作开发CXL开放互连技术并制定相应规范。
2,AMD:EPYC Genoa支持DDR5、PCle5.0以及CXL1.1接口。另一产品Bergamo拥有更高的电源效率和每插槽性能,将会和Genoa采用相同的CPU接口,支持PCle5.0和DDR5以及CXL1.1。
3,SK海力士:于2022年10月成功开发行业首款将计算功能与CXL存储器相结合的CMS.据悉,该解决方案拟搭载于下一代服务器平台上,有望提升系统性能和能源效率。
4,Marvell:收购先进CXL技术领先开发商Tanzanite.事业部副总裁表示,CXL将成为实现下一代数据中心最佳资源利用的重大变革者。
5,Rambus:推出了CXL内存互连计划,并宣布与包括云、系统和内存企业在内的生态体系达成合作,以加快CXL内存互连解决方案的开发和落地。当年10月,Rambus发布了CXL2.0控制器。
在AI的大时代下,随着CXL的应用渗透率提升,服务器也从传统围绕CPU的设计思路转向为以DRAM为中心的架构。
国内相关标的:
1,澜起科技为代表的CXL技术产业链相关公司;
2,兆易创新、江波龙等DRAM及其模组设计相关公司;
3,通富微电、深科技、长电科技等HBM、DRAM封装产业链公司;
4,中微公司、北方华创、拓荆科技、微导纳米等可提供高深宽比设备的制造端厂商。
继续积极看待存储芯片半导体趋势。
铁粉号盘中随时更新,近期热点发掘文章:
光伏反转,高纯石英砂概念除了石英股份、欧晶科技还有谁(深度分析)
硬核逻辑:数字中国纳入考核KPI,新型工业化分支2小龙(低位逻辑)
钙钛矿赛道0~1加速开启,钙钛矿及HJT上游核心材料低位龙头(业绩反转)
我会在 公众号:海涵财经 每天更新最新的医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。
— END —
先赞后看,养成习惯
免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除
人工客服(haihancaijing009):