中金-AI十年展望(五):从ChatGPT到通用智能新长征上的新变化20220203

文档编号:2601373 上传时间:2023-05-27 格式:PDF 页数:38 大小:2.99MB
下载 相关 举报
中金-AI十年展望(五):从ChatGPT到通用智能新长征上的新变化20220203_第1页
第1页 / 共38页
中金-AI十年展望(五):从ChatGPT到通用智能新长征上的新变化20220203_第2页
第2页 / 共38页
中金-AI十年展望(五):从ChatGPT到通用智能新长征上的新变化20220203_第3页
第3页 / 共38页
点击查看更多>>
资源描述

1、中金-AI 十年展望(五):从 ChatGPT 到通用智能,新长征上的新变化原创 赵丽萍 于钟海等 中金点睛 2023-02-03 07:51 发表于北京2012 年深度学习元年以来,AI 进入学术和商业界发展新阶段,2017 年大模型路线以“通用智能”思路降低算法边际成本,逐渐成为学界与产业共识。2022年下半年,AIGC 及 ChatGPT 关注度大幅提升背后,我们认为其本质是弱人工智能到强人工智能的阶跃,海外及国内商业落地处在初期,但我们认为新的产业趋势值得关注。OpenAI 的技术进展及投资方向、海外 AI 独角兽业务进展、国内龙头 AI 公司的跨模态布局是重要风向标。本文作者:赵丽萍

2、,于钟海,魏鹳霏摘要技术层面,ChatGPT 和 AIGC 的持续升温依托于大模型的技术红利。从 2012年的深度学习元年以来,各界产生了海量的数字化需求,大模型技术路线是降低边际成本的核心,2017 年大模型(Transformer)路线逐渐成为学术界与国内外巨头的发展共识。ChatGPT 由 GPT-3.5 大模型加入基于人类反馈的强化学习训练而成,带来弱人工智能向通用智能的阶跃。商业层面,以 OpenAI 投资方向为风向标,落地仍在探索期,跨模态打开场景空间。对于AIGC领域,AI作画等跨模态应用是未来的发展趋势,全球范围AIGC 独角兽已初步具备 B 端为主的变现能力,海外落地节奏显著

3、快于国内。ChatGPT 推出后,海外已有早期合作案例,例如为 BuzzFeed 提供个性化测试、为 Amazon 解决客户和工程师技术难题等。此外,以 OpenAI 前沿投资方向为锚,我们认为文本到图片/视频的跨模态生成、垂直领域 AI 写作、智能笔记、AI 语言学习平台或为潜在落地方向。展望未来,行业格局有望走向底层集中、垂类多点开花,MaaS 是商业模式演进的潜在方向。我们认为,ChatGPT 为代表的模式背后,成本、算力、场景、数据等多维度需求铸就高门槛,大模型路线下,未来行业格局趋向集中,泛化通用大模型能力的厂商有望呈现多强格局;关键垂类仍可能有场景、数据优势,精细调优后的垂类模型仍

4、有差异化竞争潜力。展望未来的商业模式,我们认为以海外Hugging Face 为代表的 Model-as-a-Service 是潜在方向,具备大模型基础的龙头有望成为 AI 开源基础设施提供商、社区生态建设者。风险技术进展不及预期,行业竞争加剧,商业化落地节奏不及预期。正文技术篇:ChatGPT 和 AIGC 持续升温背后,本质上是大模型的技术红利ChatGPT 和 AIGC 持续升温的本质是背后的 AI 大模型进入新范式。ChatGPT是基于 GPT-3.5 的 IntructGPT,基于人类反馈的强化学习(RLHF)训练的语言类大模型。本文梳理了 ChatGPT 背后的技术演进与应用落地节

5、奏,并对未来 AI行业的格局加以展望。从 2012 年的深度学习元年开始,上一轮红利已经持续 10 年2012 年是深度学习元年,以 Hinton 团队在 ImageNet 大赛中引入深度学习算法为重要节点。Hinton 带领的团队在 ImageNet 挑战赛中,通过构建深度神经网络 AlexNet 成功将图片识别错误率降低了 10.8pcts,以大幅超越第二名的成绩夺冠,证明了深度学习的发展潜力,开始被业界和资本关注。图表 1:AI 从引起业界广泛关注到目前不足 10 年资料来源:量子位,Omdia,中金公司研究部早年业界一度认为小模型、小算力是方向。此前的共识是通过精妙的算法和更高的模型精

6、度,减少对算力的需求,但行业落地实践证明其短板明显:精妙模型路线导致重复研发,无法让 AI 赋能千行百业。在 AI 公司进入大量新场景时,对每个场景都重复研发大大增加了边际成本。精妙模型路线无法解决长尾场景,完善 AI 商业化价值闭环。以份额占人工智能行业近一半份额的智慧城市为例,其中的长尾场景如防火防灾、电梯事故、垃圾乱扔由于研发难度高,大部分 AI 公司难以低成本解决,严重影响到客户对整套解决方案买单的意愿。图表 2:目前 AI 模型的神经元总量与人类差距较大资料来源:阿里云中国企业 2020:人工智能应用实践与趋势(2019 年),中金公司研究部技术演进视角,大模型是实现通用 AI 的重

7、要方向。虽然距离完全达到人类智能水平的 AI,还有很长一段路要走。但近几年在长尾场景等问题导致了对更通用的人工智能的刚需,在国内外巨头纷纷投入大量资源攻克通用人工智能难题的推动下,通用的语言模型、视觉模型甚至多模态模型也开始逐渐取得突破。2020年 OpenAI 推出 1750 亿参数的 GPT-3 大模型是行业重要里程碑,为后续大模型迭代、加入人为干预,以及 AIGC、ChatGPT 的推出打下技术基础。图表 3:大规模预训练模型对于算力需求呈指数增长资料来源:英伟达官网,中金公司研究部大模型将 AI 从感知提升到理解的维度过去的深度学习在 CV(计算机视觉)领域大放光彩,但本质上还是更多的

8、解决感知问题。CNN(卷积神经网络)已经能够较好的解决常规的人脸识别、物体识别问题,但在 NLP(自然语言处理)领域,对于物体、概念的抽象理解、语义的识别和理解,乃至推理和逻辑仍然是巨大的挑战。Transformer 算法(大模型路线)在 NLP 领域成果卓越,催化 NLP 的能力从简单的感知,向深层次的理解乃至推理不断发展。图表 4:模型的参数大小在不断提升,性能也在与时俱进资料来源:Jordi Torres.AI,中金公司研究部图表 5:AI 的能力也在从感知向理解、推理、生成攀爬资料来源:中金公司研究部如何简单的理解大模型(大规模预训练模型)基于具备一定通用性的大模型,通过少量的增量训练

9、蒸馏出小模型,是解决长尾问题的关键技术架构。从模型训练到部署,需要通过剪枝、量化、蒸馏等模型压缩技术实现更高的经济性及快速推理。以蒸馏为例,可以将结构复杂、参数规模庞大的大模型,压缩成结构简单、易于部署的小模型,相比于直接生产的小模型,大模型蒸馏出的小模型具有更强的泛化能力,边际成本大幅降低。大模型+小模型的方式能有效降低 AI 落地边际成本。由于避免了“手工作坊”式的 AI 生产方式,不需要每做一个项目就派出大量专家花数月驻场收集数据、调试模型、训练模型,并且对长尾场景的解决为客户创造了更多价值。用足够多的数据和足够大的算法去训练一个足够大的通用模型,再通过量化、剪枝、知识蒸馏等模型压缩方法

10、把大模型变小,高效的进行模型生产,并且由于算法足够多,能够覆盖各种长尾场景,大大降低了复制成本。因此我们认为,大模型是未来AI 行业的必然趋势。图表 6:蒸馏技术是类似于老师-学生传递知识的过程资料来源:ICCV2019,华为云,中金公司研究部2020 年超大模型 GPT-3 发布,衍生出 DALLE 与 CLIP 模型。随着 GPT-3 在多个自然语言处理基准上展现超强性能,该模型延伸至图像领域,衍生出匹配文字和图像的 CLIP 模型,以及由文字生成图像的 DALLE 模型。2022 年 4 月,OpenAI 推出 DALLE 2,基于 CLIP 和 Diffusion 模型,分辨率提升了

11、4 倍,准确率更高,业务更广:除了生成图像,还能二次创作。图表 7:GPT-3 衍生出 DALLE 与 CLIP 模型资料来源:OpenAI 官网,中金公司研究部Stable Diffusion 由 Stability AI 公司提出并于 2022 年 7 月开源,是 AIGC热度提升的重要驱动力。Stable Diffusion 的重要贡献在于使用空间降维解决内存和模型推理时长痛点,采用 Latent Diffusion Model(LDM)方式,在模型复杂度和图像质量之间达到平衡。Stable Diffusion 不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源

12、生态,大大降低用户的使用门槛。图表 8:Diffusion 模型原理示意图资料来源:Stability.AI,中金公司研究部图表 9:Stable Diffusion 模型原理示意图资 料 来 源:CVPR 2022 High-Resolution Image Synthesis with LatentDiffusion Models,中金公司研究部ChatGPT:基于 GPT-3.5 版本的 InstructGPT,开放接口,风靡全球2022 年 11 月 30 日,OpenAI 发布了语言大模型 ChatGPT,通过大规模预训练(GPT-3.5)和自然语言生成技术实现多轮对话问答。该模型以

13、对话的形式与用户进行自然交互,核心方法是基于人类反馈的强化学习(RLHF),能够实现“回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求”的能力。图表 10:ChatGPT 拥有智能问答、多轮对话的能力资料来源:ChatGPT,中金公司研究部图表 11:InstructGPT 公开 API 后用户的使用功能和频率资料来源:Training language models to follow instructions with humanfeedback(OpenAI,2022),中金公司研究部ChatGPT 基于 IntructGPT 模型思路,在 GPT-3.5 基础上进行微调,在数

14、据源选择与数据标注领域进行优化。ChatGPT 仅仅在训练数据和微调模型(GPT-3.5)方面与 InstructGPT 不同,其余的训练流程和方法二者相同。相较于 GPT-3 的训练集只有文本,ChatGPT 的训练集基于文本和代码,新增代码理解和生成的能力。目前,OpenAI 仍未公布 ChatGPT 的论文,但根据其主页可以得知它的方法与 InstructGPT 相同,本文从 InstructGPT 展开技术路径:图表 12:InstructGPT 主要训练流程分为三步,搭建有监督 SFT 模型、强化学习模型资料来源:Training language models to follow

15、instructions with humanfeedback(OpenAI,2022),中金公司研究部 第一步:OpenAI 采集了基于 prompt(即大量的提示文本)训练方式的数据集,提示训练模型“问题在此开始”,并详细说明了下游任务。将此数据集交给约 40 人的专业团队标注人类希望得到的回答,并以该训练集进行监督学习微调GPT-3(参数数量为 175B),得到微调后的模型 SFT。(ChatGPT 微调的模型是未公开的 GPT-3.5,比 GPT-3 参数量级更大)第二步:将第一步中的数据和 GPT-3 训练集的一部分数据混合,使用微调模型 SFT 进行预测,对每个输入得到 N 个结果

16、,此时专业人员会根据选项的好坏对其进行排序,并把排序后的数据用来训练奖励模型(RM)。第三步:使用 PPO 的强化学习方法更新参数,使用 SFT 再预测一次数据集的结果通过第二步的奖励模型进行打分,计算奖励(reward)。最后将奖励分数通过PPO 返回 SFT 进行训练。大模型不仅对应于 ChatGPT,更是整个 AIGC 领域的技术基础图表 13:AIGC 关键技术突破时间轴所示,GAN 带来生成模型雏形,GPT 等NLP 大模型是通用智能的技术基础资料来源:OpenAI 官网,Denoising Diffusion Probabilistic Models(Hoet al.2020),中金公司研究部生成对抗网络 GAN 不断演进,助力 AI 生成图像逐步完善,为 AIGC 兴起的原始思路。GAN(Generative Adversarial Networks,生成对抗网络)于 2014年提出,主要原理为,将两个神经网络(生成网络和判别网络)相互对立,以提高模型输出结果的质量。通过 GAN,计算机可以根据输入的文字描述、图像分割、草图、风格等生成实际不存在的图像,也可以将已有图片根

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 行业资料 > IT网络

启牛文库网为“电子文档交易平台”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。

本站是网络服务平台方,若您的权利被侵害,请立刻联系我们并提供证据,侵权客服QQ:709425133 欢迎举报。

©2012-2025 by www.wojuba.com. All Rights Reserved.

经营许可证编号:京ICP备14006015号