精彩收藏 · 2023年4月14日 0

Deep Speed Chat将训练速度提升15倍以上,全民ChatGPT时代要来了?

​昨天算力的大涨还记忆犹新,今天就一个反向反包让人猝不及防,单从技术层面来说,即使今天有大量获利了结的需求,也不至于跌的这么突然,所以我们认为今天算力带动整个AI板块下跌更主要的原因是微软宣布开源Deepspeed Chat。

一,Deepspeed Chat是什么

4月12日微软宣布的开源Deep Speed Chat,其实是一款用于训练智能对话模型的工具包Deep Speed Chat提供了一系列优化技术,使得训练过程更加高效。

从目前的ChatGP智能对话模型训练来看,每次都需要消耗巨大的计算资源,特别是当对话模型越来越复杂时,计算资源需要的变化非常剧烈。否则不会有那么多前期开通后又关闭的ChatGPT关停或采取收费模式,就是扛不住成本。

而Deep Speed Chat可以在相同资源下,训练出更加高效的模型。它的优化技术包括三个方面模型并行梯度累积和权重融合。模型并行可以利用多个GPU或者机器并行训练模型,加速训练过程。梯度累积可以在每个小批次训练数据上累积梯度,减少设备间通信的开销。权重融合可以减小模型不同部分之间的数据传输量,提高训练效率。

Deep Speed Chat基于微软Deep Speed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(人工反馈机制的强化学习)技术,可将训练速度提升15倍以上,成本却大幅度降低。例如,一个130亿参数的类ChatGPT模型,只需1.25小时就能完成训练。

另外,Deep Speed Chat还提供了一系列的预训练模型和示例代码,方便研究人员快速入门和使用。同时,Deep Speed Chat可以与PyTorch、Transformers等开源项目相结合,提供更加完整的智能对话解决方案。

  简单来说,用户通过Deep Speed Chat提供的傻瓜式操作,能以最短的时间、最高效的成本训练类ChatGPT大语言模型,这标志着一个人手一个ChatGPT的时代要来了。

二,DeepSpeed-Chat可以简易地进行类ChatGPT模型的训练和推理

   ChatGPT只用了几个月的时间便席卷全球,成为史上用户增长速度最快的消费级应用。很多企业、个人用户纷纷想参与到这场AI技术变革中,但由于庞大的资源、资金投入只能望而却步。现在,通过Deep Speed Chat解决资源算法等难题轻松高效的训练数千亿参数的最先进的类ChatGPT模型

ChatGPT模型的训练是基于InstructGPT论文中的RLHF方式,这使得现有深度学习系统在训练类ChatGPT模型时存在种种局限。而如今,通过Deep Speed Chat可以突破这些训练瓶颈,达到最佳效果。Deep Speed Chat拥有强化推理RLHF模块RLHF系统三大核心功能

用一个脚本,能够采用预先训练的Huggingface模型,使用 DeepSpeed-RLHF系统运行完成 InstructGPT 训练的所有三个步骤(1.监督微调2.奖励模型微调和3.人类反馈强化学习(RLHF))并生成自己的类 ChatGPT 的模型。

三,DeepSpeed-HE是DeepSpeed-RLHF系统的引擎具备三大优势

1效率比现有其他系统快15倍以上。在Azure Cloud上以低于13美元和9美元的价格在30小时内训练OPT-18B,在300小时内训练OPT-600B。

2具备出色的可扩展性:支持数千亿参数的模型,可以在一天内训练一个庞大的 175B 模型。

3让训练硬件成本亲民:只需一个 GPU,就支持超过 13 亿个参数的训练模型。

DeepSpeed-Chat的开源赋能整个AI行业提升效率和降低成本,加快应用落地。有望帮助大模型厂商加快训练,并能让中小厂商在做细分领域应用时,基于自己的场景和数据低成本快速实现自己的小型类ChatGPT模型,或在微调大模型时降低成本。

四,Deep Speed Chat的意义

微软Deep Learning工程师Alberto Parravicini说过:“Deep Speed Chat是我们为了给人们提供高效的智能对话训练工具来推动智能对话技术发展而开发的。我们希望这个开源项目可以帮助更多的研究人员和开发者。”

(1)拉低端到端门槛,用户可直接用自身数据进行RLHF调参,用户数据、场景数据成为重中之重

(2)从通用大模型到行业/用户专属模型成本初步被定义,在Azure云上只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个 OPT-30B模型。这两种训练分别花费不到300美元和600 美元。(这里训练非pre-train,而是fine-tune)

(3)训练效率提升可大幅优化训练成本,这是一项系统性工程

五,Deepspeed Chat的开源真正的影响是什么

Deepspeed Chat是基于微软本身就有的、一直为AI社区所熟知的深度学习优化库Deep Speed开发而成。

可以看到这个优化库一直在微软的技术库内,并不是一个新的东西,昨天的消息只是微软开源了这个优化库。于是市场线性的理解为:多模态大模型训练成本降低 — 算力逻辑证伪。于是整个服务器-光模块-芯片全线大跌。

但小编认为,这其实是一个好事情,这样AI在人类的推广速度会大大加快,其实对于算力的总量需求,是进一步拔高了空间。相当于降低了使用门槛,提高了使用范围 。有点像, 降低人类对计算机系统的使用难度,反而促成了windows在全社会的普及率。

微软此次开源Deep Speed Chat就像当年的互联网,为了提升发展速率降低了台式机的价格,使得普通用户也能拥有自己的电脑。只有参与的用户多了,整个行业生态才能快速壮大发展,所以,微软此次开源对整个ChatGPT生态发展起到了至关重要的推动作用,使得人人都能拥有自己的ChatGPT。

AI发展对算力的追求没有天花板,继续拥抱最确定的环节!

六,建议关注具有场景数据厂商:

1,科大讯飞(教育数据闭环+真正投入+预期产品落地)

2,税友股份(税务数据+有场景可结合)

3,广联达(建筑IT龙头,数据闭环)

4,同花顺(金融数据+市场化客户)

5,新点软件(招采数据、政务数据)

补充几个科普

1,Deepspeed Chat提供训练的模型为OPT模型(Open Pre-trained Transformer Language Models),并不是Open AI的GPT/ChatGPT系列。

2,Meta AI已开放了OPT-175B模型,强度与GPT-3相当。OPT后面带的175B指的参数量:175billion即1750亿参数。

3,ChatGPT是GPT3特化而来,主要为处理对话,故称ChatGPT。

4,Deepspeed Chat提供的示例OPT模型样本为1.3B/2.7B/6.7B/13B/66B。可以估算最终模型强度将远不如ChatGPT

铁粉号盘中随时更新,近期热点发掘文章:

光伏反转,高纯石英砂概念除了石英股份、欧晶科技还有谁(深度分析)

光伏的暴击来了,不是超跌反弹,原因有二

硬核逻辑:数字中国纳入考核KPI,新型工业化分支2小龙(低位逻辑)

ChatGPT算力硬伤引爆CPO,CPO概念成长逻辑分析

钙钛矿赛道0~1加速开启,钙钛矿及HJT上游核心材料低位龙头(业绩反转)

美国大储毛利25%+以上,核心龙头机会分析

充电桩利空调整,分歧机会来临,低估三小龙

我会在 公众号:海涵财经 每天更新最新的医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。

— END —

先赞后看,养成习惯

免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除

人工客服(haihancaijing009):