ChatGPT概念股 · 2023年3月1日 0

ChatGPT二波核心方向—-服务器深度研

一,ChatGPT二波核心方向—-服务器深度研究!

1,ChatGPT模型热潮有望带动ChatGPT服务器产业难得的投机机会!

随着国内互联网厂商陆续开展ChatGPT类似产品研发,GPT大模型训练热潮或将带来底层算力需求快速释放。GPT模型算力需求分为训练+推理两类,产生于预训练、Finetune、日常运营三大场景。据测算,ChatGPT一次预训练需要3640 PFlop/s-day、单月运营需要算力7034.7PFlop/s-day。

复盘服务器产业发展历程来看,AI服务器更适合承接GPT大模型算力需求。拆解AI服务器来看,主要硬件成本来自算力芯片,且以GPU为主。随着GPT热潮带动算力需求逐步释放,国内ChatGPT服务器产业有望迎来发展机遇,

2,ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器。ChatGPT训练热潮有望带动AI服务器需求。

(1)国内互联网大厂布局ChatGPT类似产品,将带来底层算力需求。

ChatGPT发布之后,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品“文心一言”,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节跳动旗下AI Lab宣布正在开展ChatGPT和AIGC相关研发,未来将为PICO提供技术支持;2月10日,京东旗下言犀人工智能平台推出产业版ChatGPT—“ChatJD”。,随着国内互联网厂商陆续开展ChatGPT类似产品研发,GPT大模型训练热潮或将带来底层算力需求快速释放。

AI模型对算力的需求主要体现在训练和推理两个层面。当前主流的人工智能算法通常可分为“训练” 和“推理”两个阶段。据IDC数据,2021年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练。据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%。具体来看:

1)训练阶段:单次算力需求取决于模型参数量,最高可达3640 PFlop/s-day。

2)推理阶段:预计单月运营算力需求约7034.7 PFlop/s-day。

日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据前文,近一个月(2023/1/17-2023/2/17)ChatGPT官网总访问量为8.89亿次。据Fortune杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。基于此,我们测算得2023年1月OpenAI为ChatGPT支付的运营算力成本约889万美元。此外,据Lambda,使用训练一次1746亿参数的GPT-3模型所需花费的算力成本超过460万美元;据OpenAI,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。我们假设单位算力成本固定,测算得ChatGPT单月运营所需算力约7034.7PFlop/s-day。

(2)AI服务器:更适合深度学习等AI训练场景。

首先:AI服务器采取GPU架构,相较CPU更适合进行大规模并行计算。通用服务器采用CPU作为计算能力来源,而AI服务器为异构服务器,可以根据应用范围采用不同的组合方式,如CPUGPU、CPUTPU、CPU其他加速卡等,主要以GPU提供计算能力。从ChatGPT模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型RNN来看,Transformer架构下,AI模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看,由于GPU采用了数量众多的计算单元和超长的流水线,因此其架构设计较CPU而言,更适合进行大吞吐量的AI并行计算。

深度学习主要进行矩阵向量计算,AI服务器处理效率更高。从ChatGPT模型结构来看,基于Transformer架构,ChatGPT模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数 值结果,这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU,AI GPU通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI服务器往往较GPU服务器计算效率更高,具备一定应用优势。

其次:AI服务器分类方式有两种:

1)按应用场景:AI服务器按照应用场景可以分为深度学习训练型和智能应用推理型。训练任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持,典型产品有中科曙光X785-G30和华为昇腾Atlas 800(型号9000、型号9010)。推理任务则是利用训练后的模型提供服务,对算力无较高要求,典型产品有中科曙光X785-G40和华为昇腾Atlas800(型号3000、型号3010)。

2)按芯片类型:AI服务器为异构服务器,可以根据应用范围调整计算模块结构,可采用CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多种加速卡等组合形式。目前,产品中最常见的是CPU+多块GPU的方式。

3)常见的AI服务器分为四路、八路、十六路。

一般来说,通用服务器主要采用以CPU为主导的串行架构,更擅长逻辑运算;而AI服务器主要采用加速卡为主导的异构形式,更擅长做大吞吐量的并行计算。按CPU数量,通用服务器可分为双路、四路和八路等。虽然AI服务器一般仅搭载1-2块CPU,但GPU数量显著占优。按GPU数量,AI服务器可以分为四路、八路和十六路服务器,其中搭载8块GPU 的八路AI服务器最常见。

4)AI服务器采用多芯片组合,算力硬件成本更高。我们以典型服务器产品为例拆解硬件构成,可以更清晰地理解两类服务器硬件架构区别:以浪潮通用服务器NF5280M6为例,该服务器采用1~2颗第三代Intel Xeon可扩展处理器,据英特尔官网,每颗CPU售价约64000万元,故该服务器芯片成本约64000~128000;以浪潮AI服务器NF5688M6为例,该服务器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合,据英伟达官网,每颗A800售价104000元,故该服务器芯片成本约96万元。

5)ChatGPT带动大模型训练热潮,AI服务器需求有望放量。

GPT模型训练需要大算力支持,或将带来AI服务器建设需求。,随着国内厂商陆续布局ChatGPT类似产品,GPT大模型预训练、调优及日常运营或将带来大量算力需求,进而带动国内AI服务器市场放量。以GPT-3 175B模型预训练过程为例,据OpenAI,进行一次GPT-3 175B模型的预训练需要的算力约3640 PFlop/s-day。我们假设以浪潮信息目前算力最强的AI服务器NF5688M6(PFlop/s)进行计算,在预训练期限分别为3、5、10天的假设下,单一厂商需采购的AI服务器数量分别为243、146、73台。

3,ChatGPT需要的芯片:CPU+GPU、FPGA、ASIC

(1)从产业需求来看,AI大模型训练需要大算力支持,智能算力需求释放有望带动AI服务器放量。目前国产AI服务器厂商主要包括浪潮信息、华为、新华三等,21H1国产AI服务器厂商占全球市场份额超35%。拆解AI服务器来看,主要硬件成本来自算力芯片,且以GPU为核心。

(2)国产厂商布局丰富产品矩阵,占据全球AI服务器市场领先地位。

浪潮信息、联想、华为等国产厂商在全球AI服务器市场占据领先地位。全球市场来看,AI服务器市场份额TOP10厂商中,国产厂商占据4席,累计市场份额超35%,其中浪潮信息以20.2%的份额排名第一。国内市场来看,AI服务器市场集中度较高,排名前三的供应商为浪潮信息、宁畅和华为,CR3达70.40%。

浪潮信息:AI服务器产品矩阵丰富,产品力获国际认可。目前公司AI服务器主要产品型号包括NF5688M6、NF5488A5等,据公司官网,2021年上述两款AI服务器在国际权威AI基准测试MLPerf 榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军,可满足包括自然语言理解等在内的多项AI训练需求。此外,公司在AI领域的积累还包括AI资源平台、AI算法平台等,具备大量算力解决方案实施经验。

国产厂商凭借强大产品竞争力,已经在国际市场占据一定领先地位,未来随着AI算力需求释放,有望充分受益于产业成长机遇。

(3)目前海外主流AI GPU芯片包括英伟达H00、A100、V100等,受美国出口限制政策影响,目前国内在先进算力方面主要采购英伟达A800或更低端版本作为替代方案。考虑到部分国产AI GPU如华为昇腾在FP16浮点计算性能上已经实现对英伟达A100的加速追赶,未来随着国产生态打磨,AI GPU国产替代有望加速。

(4)先进算力芯片进口受限或为国产AI服务器的瓶颈之一。2022年10月7日,美国商务部工业与安全局(BIS)宣布了针对中国出口先进芯片的管制新规声明。声明规定,满足输入输出(I/O)双向传输速度高于 600GB/s,同时每次操作的比特长度乘以 TOPS 计算出的处理性能合计为 4800 或更多算力的产品,将无法出口至中国。以英伟达A100为例,以TF32性能测算,即156*32=4992>4800,且传输速度为600GB/s。基于此,我们可以推断,性能大于等于A100 GPU的先进算力芯片属于美国出口限制范围。

采用英伟达A800服务器或为当前可行替代方案。以浪潮NF5688M6为例,NF5688M6是为超大规模数据中心研发的NVLink AI 服务器,支持2颗Intel最新的Ice Lake CPU和8颗NVIDIA最新的NVSwitch全互联A800GPU,单机可提供5PFlops的AI计算性能。对比核心硬件来看,NF5688M6采用英伟达中国特供版芯片—A800,在浮点计算能力、显存带宽、显存容量等性能指标上,与先进算力芯片—A100基本一致,主要差异在于芯片的数据传输速度,约为A100的三分之二。

英伟达其他AI GPU芯片均不受出口限制影响。考虑到目前美国GPU芯片限制主要集中在先进算力领域,倘若未来进一步加大限制力度,A800等大算力芯片可能出现进一步被限制的风险。而从英伟达产品线布局来看,除了前面讨论的A100、A800、V100、H100等先进算力芯片外,还有A2、A10、A30、A40、T4等。这些芯片中,浮点计算能力最强的型号为A30,输出性能为82*32=2624<4800,因此不受出口限制影响。

国产AI GPU性能持续升级,国产替代未来可期。目前国产AI GPU厂商主要包括阿里、华为、寒武纪、天数智芯等。随着国内厂商持续加强GPU研发,产品力不断升级。以华为昇腾910为例,该款芯片采用7nm制程,集成了超496亿个晶体管,可以提供320TFLOPS的FP16计算速度或640TOPS的INT8算力,略高于英伟达A100的FP16计算速度(312TFLOPS,不采用英伟达稀疏技术)。单纯从芯片算力性能来看,部分国产芯片已经能够追赶海外主流芯片。随着国产生态逐步打磨,GPU性能提升有望推动国产化替代。

5,投资建议:AIGC绝对不是纯粹的主题概念,国际国内互联网巨头已经纷纷落地加码斥巨资投入这个赛道,开始杀得天昏地暗。A股第一波的炒作暂时告一段落,目前正是加紧投资研究的黄金空窗期。

二波市场关注的方向,极大概率仍然是算力细分方向,核心逻辑是,不管最后哪个巨头最终占据AIGC的战略高地,中间巨头们厮杀的过程必将为算力行业,尤其是AI服务器行业提供超过以往数倍甚至数十倍的业务机会,所以耐心等待算力方向一波炒作的回落,找准时机介入二波算力龙头们的主胜浪!重点关注关注核心环节龙头。

目前国内AI服务器产业链公司主要包括:

①能够采购到海外高性能芯片的厂商:浪潮信息等;

②采用海光/寒武纪芯片的厂商:中科曙光

③采用华为昇腾芯片的厂商:拓维信息等;

④底层芯片供应商:海光信息寒武纪景嘉微

铁粉号近期热点发掘文章:

硬核逻辑:数字中国纳入考核KPI,新型工业化分支2小龙(低位逻辑)

ChatGPT算力硬伤引爆CPO,CPO概念成长逻辑分析

我会在 公众号:海涵财经 每天更新最新的医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。

— END —

先赞后看,养成习惯

免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除

人工客服(haihancaijing009):

图片