计算机行业证券研究报告:GPT系列

文档编号:2601216 上传时间:2023-05-27 格式:PDF 页数:18 大小:3.40MB
下载 相关 举报
计算机行业证券研究报告:GPT系列_第1页
第1页 / 共18页
计算机行业证券研究报告:GPT系列_第2页
第2页 / 共18页
计算机行业证券研究报告:GPT系列_第3页
第3页 / 共18页
点击查看更多>>
资源描述

1、免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1证券研究报告 计算机 GPT 系列:具身化多模态 PaLM-E 华泰研究 计算机 增持(维持)研究员谢春生SAC No.S0570519080006SFC No.BQZ+(86)21 2987 2036联系人袁泽世,PhDSAC No.S+(86)21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2023 年 3 月 14 日中国内地 专题研究 PaLM-E:具身化的多模态大语言模型PaLM-E 是由谷歌于 3 月 6 日提出的最新大语言模型,其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体,

2、对应 PaLM-E指导现实的机器人完成相应任务;多模态指的是 PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态信息编码为与语言相似的形式,嵌入已有的 PaLM 模型,实现多模态的联合训练。其中,规模最大的 PaLM-E 参数达 5620 亿,是目前最大的视觉语言模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。PaLM-E 解决了机器学习的 grounding 问题机器学习的 grounding 问题,指的是如何将抽象的符号或概念与真实世界的物体或事件联系起来

3、的问题。例如,让机器学习模型将“苹果”这个词与“具有形状、颜色、味道等属性的水果”相关联。已有的很多模型是基于文本数据训练,没能与真实世界的视觉和物理传感器模态建立良好联系,且多模态输入尚未普及,限制了模型在现实世界中的推理能力。PaLM-E 通过将图像、文字、具身数据联合训练,并引入多模态输入,增强了模型对现实中对象的理解,实现了机器人处理具身推理任务,较好解决了 grounding 问题。编码器是实现多模态输入的关键对应不同类别的多模态,需要分别设计不同类型的编码器进行编码。根据多模态的种类,PaLM-E 涉及的编码器主要包括:1)状态估计向量,实现物体位置、尺寸和颜色等状态信息编码;2)

4、ViT:实现 2D 图像编码;3)对象为中心的表示:实现对视觉输入中各对象的编码;4)OSRT:实现对 3D场景的编码;5)实体引用:实现对难以用自然语言表述的对象的指代。完成编码后,即可注入已有模型进行训练和下游任务执行。PaLM-E 以“在环路”的方式指导现实机器人完成具身任务PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。由于以往的 LLM 在具身研究和相应数据集积累上较少,因此训练集中的具身数据占比仅 8.9%。在实际执行任务时,PaLM-E 以“在环路”的方式,一步一步指导机器人操作,并根据机器人的反馈调节输出指令。在任务与运动规划、桌面环境操作和移动操作等具身

5、任务中,PaLM-E 能在部分仿真任务上取得优于 SOTA 的结果,并成功指导现实中机器人完成长期任务。PaLM-E 同样在视觉/语言任务上取得较好效果虽然完成机器人具身任务是 PaLM-E 模型研究的重点,但是经过文本、图像和具身混合数据集联合训练后,PaLM-E 同时获得了良好的通用视觉语言任务处理能力,甚至在某些测试集中取得了优于微调模型的结果。但是,在自然语言生成等通用语言任务上,多模态训练使得小参数规模的 PaLM-E 存在灾难性遗忘问题,PaLM-E-12B 相比其原版 PaLM-8B 的自然语言生成性能下降 87.3%。不过,可以通过增加模型参数量实现性能改善。当模型参数增大到

6、PaLM-E-562B 时,性能仅下降 3.9%。风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(24)(14)(3)818Mar-22Jul-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2计算机 正文目录PaLM-E:具身化的多模态大语言模型.3 现有模型:不能很好解决 grounding 问题.4 将多模态输入 LLM 的关键:设计编码器.5 状态估计向量:描述物体状态.5 ViTs:解决 2D 图像编码.5 对象为中心的表示:将视觉输入分离成对象.5 OSRT:提供 3D 场景表

7、示.5 实体引用:直接指定引用对象.5 PaLM-E:模型设置+训练集选择+实验结果.6 模型构建:构建了从小到大多种尺寸的 PaLM-E.6 训练数据集:多种数据的混合.6 实验设置:多种环境下进行任务设计.7 实验结果:迁移特性良好,能够指导真实机器人完成任务.7 任务与运动规划.8 桌面环境操作.9 移动操作.11 其他实验:通用视觉语言任务和通用语言任务.13 风险提示.14 ZXFUxOrMmPqRqOoNqNpQoP6McM9PpNmMoMnOfQoOpMjMqRqMbRpPwOxNmRmQuOpPoO免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3计算机 PaLM-

8、E:具身化的多模态大语言模型PaLM-E 引入具身化和多模态概念。谷歌在 2022 年提出的 PaLM 模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E 的字面理解,是以 PaLM 作为预训练的语言模型,并使其具身化(Embodied)。其中,机器学习中的具身化是指一种涉及到物理实体(如机器人)的机器学习方法,它可以使人工智能通过感知、行动和交互来学习和推理。具身化的机器学习方法可以处理多模态的数据,如语言、视觉和触觉,并且可以适应不同的环境和任务。PaLM-E 主要思想是利用现有 LLM 和语言嵌入方法解决多模态问题。PaLM-E 的主要架构思想

9、是,将连续的、具体的多模态观察(如图像、状态估计或其他传感器模态),转化为和语言 token 嵌入空间维数相同的向量序列,用和语言 token 同样的方式注入预训练语言模型的语言嵌入空间(embedding space),使得 LLM 能够以处理文本的方式处理多模态信息,从而建立文字和感知之间的联系,解决机器人相关的具身问题。PaLM-E 是一个仅基于解码器(decoder)的自回归的生成类 LLM,在给定前缀(prefix)或提示(prompt)的情况下,能够自回归地生成文本补全。PaLM-E 输入为多模态,输出为纯文本。PaLM-E 的输入是多模态句,由文本和连续观察组成,与观察相对应的多

10、模态 token 可以包括图像(image)、神经 3D 表示(neural 3D representations)、状态(states)。例如:“Q:What happened between and?”,其中代表的就是图片的嵌入。PaLM-E 的输出是由模型自回归生成的文本,可以是问题答案,也可以是由 PaLM-E 以文本形式生成的机器人可执行的一系列决策。图表1:PaLM-E 的模型示意图和任务示例资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究PaLM-E 有很强的迁移和泛化能力。谷歌

11、指出,虽然不是实验的主要目的,但 PaLM-E 还是表现出广泛地能力,包括零样本学习多模态思维链(chain-of-thought,CoT,一种利用大模型的上下文学习能力来完成任务的方法)、少样本提示、无需 OCR(光学字符识别)的数学推理、多图推理(尽管只在单张图像提示上进行过训练)等能力。模型示意图图像其他文字以谷歌提出的PaLM大语言模型(LLM)为基础输入输出文字主要任务主要是与控制机器人相关的任务任务和移动规划桌面操作移动操作次要任务与视觉问答和语言相关的任务视觉问答,图像描述纯语言类任务 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4计算机 图表2:PaLM-E-5

12、62B 能够实现的部分任务资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究现有模型:不能很好解决 grounding 问题现有模型没有很好的处理 grounding 问题,限制了模型在现实世界中的推理。机器学习的grounding 指如何将抽象的符号或概念与真实世界的物体或事件联系起来的问题。例如,如何让机器学习模型理解“苹果”这个词不仅是一个符号,而且是一个具有形状、颜色、味道等属性的水果。grounding 问题的处理在涉及大量符号和感知信息的计算机视觉领域尤为重要。现有模型的主要问题表现

13、在:1)表示与现实没有建立很好的联系。虽然在大量文本数据上训练出的 LLM 能得到与物理世界相关的表示(representation,即某种特征),但是在计算机视觉和机器人领域中,表示与真实世界的视觉和物理传感器模态没有建立起很好的联系。2)多模态输入尚未普及。现有的研究,将 LLM 的输出与机器人相连接来实现决策,但是这些 LLM 只能够以文本方式输入,不能很好地适应与几何场景配置相关的任务(比如移动积木块等)。3)很多模型不能实现机器人具身推理任务。目前已有的 SOTA 视觉语言模型,是在典型的视觉语言任务(如视觉问题回答 VQA)上进行训练的,不能直接解决机器人相关的具身推理任务。少样本

14、提示下,基于视觉约束,讲冷笑话零样本多模态思维链零样本:多图关系识别无需OCR的数学推理机器人视觉感知、对话与规划;物理预测;空间问题;机器人主动权;端到端的自我中心问答和对话其他任务:免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5计算机 将多模态输入 LLM 的关键:设计编码器针对不同类型的任务设计编码器,实现将不同的多模态信息输入到 LLM 中。PaLM-E 模型相关任务涉及的多模态信息主要包括状态、图片、3D 场景等,需要分别设计编码器。编码器经过端到端训练,以自然文本的形式输出决策序列,使得具身智能体(embodied agent,例如执行任务的机器人)能够根据这些决策

15、,执行基本动作或针对一些具身问题进行回答。主要的编码器包括:状态估计向量、ViT、OSRT、实体参照等。状态估计向量:描述物体状态状态估计向量是 PaLM-E 最简单的一种输入形式。状态估计向量(state estimation vectors)描述了场景中物体的状态,例如位置、尺寸、颜色等,可以用多任务感知机(MLP,也叫前馈神经网络,是最早发明的简单人工神经网络)直接映射到语言嵌入空间。ViTs:解决 2D 图像编码ViT 是一种将图像映射为一组 token 嵌入的 Transformer 架构,主要面向 2D 图像。ViT(Vision Transformers,视觉 Transform

16、er)是 Transformer 在视觉领域的重要应用模型之一。PaLM-E 采用的 ViT 包括一个 40 亿参数的 ViT-4B 和一个 220 亿参数的 ViT-22B,这两个模型都已经在图像分类任务中完成预训练。同时还考虑了一种端到端训练的 ViT token 学习架构(ViT+TL)。对象为中心的表示:将视觉输入分离成对象对象为中心的表示将视觉输入分离成不同的对象。与语言不同,视觉输入并没有预先构造成有意义的实体和关系。这会导致两个问题:1)与基于符号进行预训练的 LLM 交互时存在问题;2)在解决需要物理物体之间相互作用的具身问题时存在问题。因此,构造结构化的编码器对象为中心的表示(object-centric representations),将视觉输入分离成不同的对象 token,表示场景中的独立物体,然后再将其输入到 LLM 中。OSRT:提供 3D 场景表示OSRT 提供了以 3D 为中心的神经场景表示。OSRT(object Scene Representation Transformer,对象场景表示 Transformer)不需要 ground-truth(指

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 行业资料 > IT网络

启牛文库网为“电子文档交易平台”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。

本站是网络服务平台方,若您的权利被侵害,请立刻联系我们并提供证据,侵权客服QQ:709425133 欢迎举报。

©2012-2025 by www.wojuba.com. All Rights Reserved.

经营许可证编号:京ICP备14006015号