从通用性来讲,算力芯片有三种,专用的ASIC芯片,通用的GPGPU,还有介于专用和通用之间的FPGA。目前的AI加速芯片市场以通用性为主,GPGPU占到90%的市场份额。
在用途上,一种是训练芯片,用来训练大模型,算力和精度要求高;另一种是推理芯片,是在已经完成训练的模型上,根据输入数据反馈输出结果,算力和精度要求都低很多。
AI算力芯片折旧一般2-3年,最长不超过5年。从2019年开始,算力需求每10个月翻一番,产品更新迭代很快。
目前的市场格局下,英伟达是绝对的龙头老大,拥有最先进的加速芯片H100和最高的市占率。
因为美丽国的制裁,英伟达不能直接向中国出口先进的算力芯片,只能提供性能阉割版的芯片,海外能用A100和H100,国内只能买A800和H800,从参数上看差了30%多性能,实际用下来大概差了一半。
以GPT-3为例,openai训练使用了一万张A100,训练了14.8天左右。GPT-4没有详细披露训练过程,估计是用2-3万张A100训练了一个月左右的时间。
国内的厂商中,海光信息 从实际量产的技术上来讲是第一梯队。海光的深算1号可以运行大模型,但只相当于英伟达的P100,等于是14年左右的技术水平,而且实际运行的稳定性差很多。
国内某家公司训练大模型一开始用的是2400片左右的A100芯片,中间只出现了3次宕机,8天就完成了初步训练。后面想省些钱,就找了海光平台,用了6万张海光的芯片,结果中途反复宕机,花了一个月的时间还没有训练完成。
所以说,别看现在国内这些芯片公司炒得热火朝天,其实国内几家互联网大厂都知道实际性能还不行,依然被人家的阉割版芯片吊起来打,都在抢着找英伟达下订单,每家预定金额在十几亿美金,对应1.5万-1.6万的A800和H800。
除了海光之外,华为的昇腾910也能拿来当训练芯片,但是目前只能运行华为自己内部经过优化后的模型,估计在通用性上还是差点意思。
天数智芯和寒武纪的产品只能拿来做推理芯片。百度的昆仑芯勉强能用于大模型推理,并且是基于Paddle平台的,通用性差。
景嘉微的产品目前只能拿来做图像渲染,未来也许能实现光追,主攻的是游戏市场。景嘉微最好的JM9系列,只能达到英伟达GTX 1050的水平,算是入门级GPU。
沐曦夸下的海口最大,核心人员曾参与过AMD的MI100、MI200产品开发,有GPGPU的设计经验,据说今年底会发布第一款AI训练产品C100,能对标H100,我还是持怀疑态度,这家公司是20年9月份才成立的,可能是为了融资要说一些大话,反正吹牛不上税。
目前来讲,国内外算力差距在一点点缩小,不过缩小的难度变得越来越大。算力芯片设计过程中的很多核心IP都掌握在老外手里,生产的时候又非常依赖台积电。
硬件的投入大,风险高,英伟达过去一年的研发费用高达500多亿。如果未来美国公司不给最新一代的IP授权,如果英伟达仍然保持每十个月发布一代产品的节奏,国内厂商反而可能越追越远。
芯片、存储、网络连接、电源、散热等部件组装在一起,就是所谓的的服务器了。
其实这个过程跟自己攒显卡、内存、主板等拼一台电脑差不了太多,相当于大进大出的来料组装业务。理解了这一点,就能明白为什么$浪潮信息(SZ000977)$ 这种听上去高大上的服务器公司常年只有3个多点的净利率了,因为就是个大号组装厂。而真正掌握芯片环节的英伟达近几年的平均净利率在25%以上。
通用的服务器一台只要6.5万,只要2张CPU芯片就行了。
推理型的AI服务器一台近23万,增加了4张T4型号的GPU和其他性能的小幅提升。
训练型的AI服务器一台差不多91万,其中8张A100就要76万,是绝对的成本大头。
资金炒作完算力芯片,发现国内目前没有一个能打的,去了服务器中技术相对简单、容易国产突破的环节,比如要用液冷替代风冷等等,炒作资金也是懂点技术的
这波AI大涨,主要靠的是技术革命的宏观叙事。但即使是长期来看十分正确的宏观叙事,在中短期内也未必有投资价值。1995-2000年的互联网泡沫是非常著名的案例。回头来看,2000年互联网股票封神的时候,关于互联网深刻改变世界的宏观叙事基本都是对的。
关于寒武纪590单卡性能测试超越A100?最快Q4才开始测试
1.寒武纪590单卡性能测试超越A100,达到A100150%~170%的程度,目前MLULINK的片间互联速度512GB/S(A800是400GB/s),因为还没有研发MLU SWITCH芯片(对标NVSWITCH),所以集群互联目前性能发挥大概在A10080~90%之间,千卡互联的集群会再损失一些,主要原因出在没有自研SWITCH芯片。往后会研发MLUSWITCH,加强集群性能,提升集群互联性能,对标英伟达DGX,目标是先达到80%集群互联性能。MLUSWITCH可能采取外包研发的方式,研发难度不大,预计明年和改款590一起推出。
多个客户已经完成适配,百度、商汤、快手、字节、讯飞等等,对于transformer类型的模型兼容性好,性能得到A10090%发挥。对于O/类常见的resnetYOLO等,能发挥A10080%,对于其他不常见模型大概发挥50~60%。
今年会在国产N+2测试核心IP,明年Q3会在国产线生产下一代产品,国产线采用双芯2片chiplet,不阉割互联速度(H100 900GB/s互联速度,H800只有400GB/s,对训练效率影响大),性能对标H100,产能口头保证月产能2000 片,良率预估20%,一张晶圆切80颗。
(一张晶圆切80颗,计算良率出16颗芯粒,双芯合封出8颗芯片。单价假设对标H800定价在2-2.5万美金,单张晶圆产出芯片价值量在100万左右,板卡价值量增加30%,单张晶圆营收贡献在130万左右,2000张月产能理论贡就产出在2000张(月*12月*130万/张=年理论产出312亿)。
公司最近在做成本控制,明年有可能提前实现盈利。4590改版进展顺利,预期03开始流片,Q4到手测试,明年看需求会大幅增加产出
关于AI芯片
在估值炒得过高之后,还是迎来了泡沫破灭,如微软,其股价也是在暴跌之后10年不涨。
拿近一点例子,新能源火热的时候,市场也是把每一个环节都拆开来找相关股票。新能源相关行业的公司是真的有业绩大幅增长的,利润翻了好几倍,股价上涨也很合理,只是后面估值过高了。行业景气过了之后,大部分股票都跌了很多,比如做电解液的天赐材料从84跌到43,做隔膜的恩捷股份从318跌到115,做负极材料的贝特瑞从131跌倒42。
现在国内这些缺乏业绩兑现的算力芯片股乃至所有的AI概念股,AI需要寻找确定性业绩、增速和毛利三合一的稀缺标的。
我会在 公众号:海涵财经 每天更新最新的数字经济、ChatGPT、AI算力、CPO/硅光芯片、大数据、6G卫星、数据要素、医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。
— END —
先赞后看,养成习惯
免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除