25AIGC算力时代系列报告:ChatGPT芯片算力:研究框架

文档编号:2601063 上传时间:2023-05-27 格式:PDF 页数:29 大小:1.72MB
下载 相关 举报
25AIGC算力时代系列报告:ChatGPT芯片算力:研究框架_第1页
第1页 / 共29页
25AIGC算力时代系列报告:ChatGPT芯片算力:研究框架_第2页
第2页 / 共29页
25AIGC算力时代系列报告:ChatGPT芯片算力:研究框架_第3页
第3页 / 共29页
点击查看更多>>
资源描述

1、2023年2月10日ChatGPT芯片算力:研究框架【AIGC算力时代系列报告】行业评级:看好证券研究报告分析师陈杭研究助理安子超邮箱邮箱证书编号S1230522110004获取更多最新资料请加微信:chensasa666算力需求爆发拉动芯片量价齐升量价芯片需求光模块和光芯片AI芯片(加速器)GPUCPUFPGAAI光模块ChatGPT完美运行训练数据模型算法算力模型迭代Transformer技术算力需求增加英伟达GPU A100模型训练成本1200万美元AI训练计算需求预计每3.5个月翻一番1万颗芯片需求快速增加芯片均价大幅提升通过AI服务器实现资料来源:浙商证券研究所2获取更多最新资料请加

2、微信:chensasa666添加标题95%摘要3ChatGPT热潮席卷全球。ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI于2022年12月推出的对话AI模型,一经面世便受到广泛关注,其2023年1月月活跃用户达到1亿,是史上月活用户增长最快的消费者应用。在问答模式的基础上ChatGPT可以进行推理、编写代码、文本创作等等,这样的特殊优势和用户体验使得应用场景流量大幅增加。1、芯片需求=量 x 价,AIGC拉动芯片产业量价齐升1)量:AIGC带来的全新场景+原场景流量大幅提高。技术原理角度:ChatGPT基于Transforme

3、r技术,随着模型不断迭代,层数也越来越多,对算力的需求也就越来越大;运行条件角度:ChatGPT完美运行的三个条件:训练数据+模型算法+算力,需要在基础模型上进行大规模预训练,存储知识的能力来源于1750亿参数,需要大量算力。2)价:对高端芯片的需求将拉动芯片均价。采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。支撑ChatGPT的算力基础设施至少需要上万颗英伟达GPU A100,高端芯片需求的快速增加会进一步拉高芯片均价。2、ChatGPT的“背后英雄”:芯片,看好国内GPU、CPU、FPGA、AI芯片及光模块产业链1)GPU:支撑强大算力需求。由于具备并行计算能力,

4、可兼容训练和推理,目前GPU被广泛应用于加速芯片。看好海光信息、景嘉微;2)CPU:可用于推理/预测。AI服务器利用CPU与加速芯片的组合可以满足高吞吐量互联的需求。看好龙芯中科、中国长城;3)FPGA:可通过深度学习+分布集群数据传输赋能大模型。FPGA具备灵活性高、开发周期短、低延时、并行计算等优势。看好安路科技、复旦微电、紫光国微;4)ASIC:极致性能和功耗表现。AI ASIC芯片通常针对AI应用专门设计了特定架构,在功耗、可靠性和集成度上具有优势。看好寒武纪、澜起科技;5)光模块:容易被忽略的算力瓶颈。伴随数据传输量的增长,光模块作为数据中心内设备互联的载体,需求量随之增长。看好德科

5、立、天孚通信、中际旭创。获取更多最新资料请加微信:chensasa666风险提示41、AI技术发展不及预期2、版权、伦理和监管风险3、半导体下游需求不及预期获取更多最新资料请加微信:chensasa666目录C O N T E N T SChatGPT带动算力芯片量价齐升010203CPU、GPU、FPGA、AI芯片提供底层算力支持光模块支撑数据传输5获取更多最新资料请加微信:chensasa666算力需求爆发拉动芯片量价齐升01PartoneAI计算需要各类芯片支撑算力需求爆发,芯片量价齐升AI服务器为算力载体CPU、GPU、FPGA、ASIC、光模块各司其职6获取更多最新资料请加微信:ch

6、ensasa666人工智能四层架构,芯片为底层支撑7底层芯片深度学习框架大模型上层应用CPUGPUFPGAASIC百度:PaddlePaddleMeta:PyTorch谷歌:TensorFlow华为:MindSporeOpenAI:GPT3.5华为:盘古大模型AIGCAI音乐:DeepMusicAI绘画:盗梦师AI写作:弈写ChatGPT百度:文心大模型谷歌:PaLM01资料来源:澜舟科技,IDC,量子位,电子发烧友等,浙商证券研究所获取更多最新资料请加微信:chensasa666人工智能不同计算任务需要各类芯片实现01资料来源:Huawei forum,浙商证券研究所CPUGPUFPGAAI

7、用ASIC通用性强,应用方便性能更优,能效更高强大的调度、管理、协调能力;应用范围广开发方便灵活 逻辑判断 任务调度与控制并行架构计算单元多适合大量逻辑确定的重复计算 模型训练成本低能耗低性能强针对AI设定特定架构 成熟量产阶段 研发阶段 数据中心 AI推理低延时开发周期短硬件可根据需求调整成本和壁垒高8获取更多最新资料请加微信:chensasa666ChatGPT流量激增,为AI服务器带来重要发展机遇019资料来源:Sensor Tower,World of Engineering,头豹研究院,华经产业研究院,浙商证券研究所原场景流量提升+新应用场景服务器算力要求提升AI服务器需求增加达成1

8、亿月活跃用户耗时2个月9个月30个月 54个月 60个月 78个月史上用户增速最快消费级应用应用原场景流量提升创造新应用场景ChatGPT在问答模式的基础上进行推理、编写代码、文本创作等,用户人数及使用次数均提升。智能客服智能音箱陪伴型机器人游戏NPC内容生产传统CPU服务器通用性较强,专用性较弱数据的质和量发生变化,非结构化数据占比激增算力无法满足AI服务器需求终端用户使用频率提高,数据流量暴涨,对服务器的数据处理能力、可靠性及安全性等要求相应提升CAGR=18.8%122亿美元288亿美元20202025全球AI服务器市场规模获取更多最新资料请加微信:chensasa666ASICAI服务

9、器快速增长,大力拉动芯片需求0110资料来源:IDC,2022-2023中国人工智能计算力发展评估报告,芯八哥,wind,浙商证券研究所整理0%10%20%30%40%50%60%70%80%90%100%2020202120222023202420252026训练推理GPU,89.0%NPU,9.6%ASIC,1.0%FPGA,0.4%新华三/HPE,15.6%戴尔,15.4%浪潮,8.9%联想,6.4%华为,1.1%ODM,35.5%其他,17.1%浪潮,30.7%新华三/HPE,17.5%戴尔,7.5%华为,7.4%联想,6.6%ODM,8.5%其他,21.8%中国人工智能服务器工作负载

10、预测2021年全球服务器市场格局2021年中国服务器市场格局中国人工智能芯片市场规模占比AI服务器=?CPU+异构形式GPUFPGA或或获取更多最新资料请加微信:chensasa666AI服务器芯片构成CPU+加速芯片11CPU+加速芯片:通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求自然语言处理计算机视觉训练(算力 30TOPS)推理(算力 30TOPS)计算(530TOPS)芯片种类优点缺点GPU提供了多核并行计算的基础结构,核心数多,可支撑大量数据的并行计算,拥有更高浮点运算能力管理控制能力弱,功耗高FPGA可以无限次编程,延时性较低,

11、拥有流水线并行(GPU只有数据并行),实时性最强,灵活性最高开发难度大,只适合定点运算,价格比较昂贵ASIC与通用集成电路相比体积更小,重量更轻,功耗更低,可靠性提高,性能提高,保密性增强,成本降低灵活性不够,价格高于FPGAAI服务器应用领域应用场景机器学习高度适配资料来源:华经产业研究院,亿欧智库,浙商证券研究所获取更多最新资料请加微信:chensasa666CPU擅长逻辑控制,可用于推理/预测0112资料来源:CSDN,浙商证券研究所整理控制单元存储单元运算单元控制指令数据整个CPU的指挥控制中心,由指令寄存器IR、指令译码器ID和操作控制器OC等组成。暂时存放数据的区域,保存等待处理或

12、已经处理过的数据。执行部件,运算器的核心。可以执行算术运算和逻辑运算。运算单元所进行的全部操作都是由控制单元发出的控制信号来指挥。优势劣势作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。控制指令CPU有大量的缓存和复杂的逻辑控制单元,擅长逻辑控制、串行的运算。计算量较小,且不擅长复杂算法运算和处理并行重复的操作。在深度学习中可用于推理/预测取指令指令译码执行指令修改指令计数器CPU运行原理获取更多最新资料请加微信:chensasa666服务器CPU向多核心发展,满足处理能力和速度提升需要0113资料来源:芯论语,半导体产业纵横,AMD官网,浙商证券研究所英特尔从单核到多核A

13、MD从双核到96核200520102017奔腾D系列酷睿i7-980X酷睿i92020Lakefield史上第一个双核处理器首款6核处理器18核处理器首款采用混合架构的x86 5核处理器200520072018Athlon 64 X2Phenom9500第二代锐龙Threadripper2020锐龙Threadripper3990X同一块芯片内整合两个K8核心首款原生4核处理器最大核心数量已达到32核拥有64核单核心CPU串行单任务处理“一心一用”分时多任务处理“一心多用”多核心CPU“多心多用”处理的任务更多、处理速度更快分时多任务处理系统性能优劣不能只考虑CPU核心数量,还要考虑操作系统、

14、调度算法、应用和驱动程序等。2023Sapphire Rapids拥有56个核心2023霄龙9004核心数量最多可达96个获取更多最新资料请加微信:chensasa66695%GPU高度适配AI模型构建0114AI模型构建(以英伟达A100为例)资料来源:英伟达官网,镁客网,腾讯网,浙商证券研究所训练过程推理过程多实例 GPU(MIG)技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能提升。在 BERT 等先进的对话式 AI 模型上,A100可将推理吞吐量提升到高达 CPU 的 249 倍;

15、ChatGPT引发GPU热潮百度:即将推出文心一言(ERNIE Bot)苹果:引入AI加速器设计的M2系列芯片(M2 pro和M2 max)将被搭载于新款电脑OpenAI:随着ChatGPT的使用量激增,OpenAI需要更强的计算能力来响应百万级别的用户需求,因此增加了对英伟达GPU的需求AMD:计划推出与苹果M2系列芯片竞争的台积电4nm工艺Phoenix系列芯片,以及使用Chiplet工艺设计的Alveo V70AI芯片。这两款芯片均计划在今年推向市场,分别面向消费电子市场以及AI推理领域GPU的并行计算高度适配神经网络GPU帮助高速解决问题:2048 个 A100GPU 可在一分钟内成规

16、模地处理 BERT 之类的训练工作负载;0.7X3XV100FP161XA100 40GBFP16A100 80GBFP161X249XCPU Only245XA100 40GBA100 80GB获取更多最新资料请加微信:chensasa666FPGA:可通过深度学习+分布集群数据传输赋能大模型01资料来源:ofweek,摩尔星球,C114,知识产权课堂,亿欧智库,浙商证券研究所FPGA可编程灵活性高:半定制电路,理论上可以实现任意ASIC和DSP的逻辑功能开发周期短:可通过设计软件处理布线、布局及时序等问题。现场可重编功能:可以远程通过软件实现自定义硬件功能。低延时:逻辑门通过硬件线连接,不需要时钟信号方便并行计算:集成了大量基本门电路,一次可执行多个指令算法深度学习通信接口异构计算、并行计算数据高速收发、交换推理Intel,AMD(Xilinx),亚马逊,微软,百度,阿里,腾讯AMD(Xilinx)训练Intel,AMD(Xilinx)/数据中心边缘端15获取更多最新资料请加微信:chensasa666ASIC可进一步优化性能与功耗,全球巨头纷纷布局0116随着机器学习、边缘计算、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 行业资料 > IT网络

启牛文库网为“电子文档交易平台”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。

本站是网络服务平台方,若您的权利被侵害,请立刻联系我们并提供证据,侵权客服QQ:709425133 欢迎举报。

©2012-2025 by www.wojuba.com. All Rights Reserved.

经营许可证编号:京ICP备14006015号