计算机行业研究：文心一言、GPT3.5及GPT-4的应用测评对比

资源描述

1、敬请参阅最后一页特别声明 1 OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API；国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异，我们对文心一言、GPT-3.5（ChatGPT 的原模型）和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。在常识和创作类问题中，三大模型均能正确回答客观常识类问题；进行文学创作结果均能体现正面价值观，但文

2、心一言的分词功能有待提升；目前 GPT-4 尚未开放图像生成外部测试，文心一言的图像生成能力较为出色。在归纳和推理类问题中，文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型，但在归纳总结类任务中表现较好；三大模型在情感推理类问题中仍有提升空间。在数学和代码类问题中，GPT-3.5 有更好的数学能力表现；GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题，但并非最优解，文心一言代码问题识别能力有待加强。在应用场景测试中，三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务，但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及 O

3、penAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升，各模型性能都有望实现进一步优化完善。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现，其中，文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4，但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏，有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司，如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限；应用落地不及预期

4、；行业竞争加剧风险；测评问题有限导致结果或有偏差。行业深度研究敬请参阅最后一页特别声明 2 内容目录 1.常识和创作.3 2.归纳和推理.7 3.数学和代码.12 4.现实应用场景测试.17 5.投资建议.30 6.风险提示.30 图表目录图表 1：三大模型测评结果综合对比.3 图表 2：常识类问题的回答对比.4 图表 3：文字创作问题的回答对比.4 图表 4：图像创作问题的回答对比.6 图表 5：演绎推理问题的回答对比.7 图表 6：情感推理问题的回答对比.8 图表 7：逻辑推理问题的回答对比.9 图表 8：归纳总结问题的回答对比.10 图表 9：数学问题的回答对比.13 图表 10：代

5、码生成问题的回答对比.14 图表 11：安全应用问题的回答对比.18 图表 12：生活应用问题的回答对比.19 图表 13：客服场景问题的回答对比.21 图表 14：办公协同问题的回答对比.22 图表 15：推荐场景问题的回答对比.26 图表 16：诗词理解问题的回答对比.28 行业深度研究敬请参阅最后一页特别声明 3 文心一言开放测试后，我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评，测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。根据测试结果可以看出

6、，三大模型在客观问题问答方面都有出色表现，但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看，文心一言在图像创作、归纳总结等问题中表现较为出色，但在逻辑推理领域还有待加强。在具体应用中，三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求，但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升，各模型性能都有望进一步优化。图表1：三大模型测评结果综合对比应用领域文心一言GPT-3.5GPT-4常识和创作常识类问题正确正确正确且更为严谨文字创作分词错误正确正确且细节更丰富图像创作生成图像符合要

7、求无法生成图像生成功能暂未开放归纳和推理演绎推理错误正确正确情感推理结果正确，过程有偏差错误错误逻辑推理错误错误基本正确归纳总结符合要求，对未知内容直接进行网页搜索未能提取正确信息符合要求，可对未知内容进行推理，多轮对话能力较强数字和代码数学计算错误正确错误代码生成错误未给出最优答案未给出最优答案模拟 AI助手安全类问题符合要求符合要求符合要求生活类问题符合要求且给出可靠建议符合要求符合要求模拟 AI客服退换货问题符合要求符合要求符合要求模拟办公助手场景文档生成符合要求符合要求符合要求文字修饰有待改进有待改进有待改进模拟推荐助手推荐理财产品及生日礼物符合要求符合要求符合要求教学辅助古诗词理解基

8、本正确部分内容错误部分内容错误来源：百度文心一言官网，chat.openai 官网，国金证券研究所常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题，以评价模型对已有知识的表述能力和图文生成能力。常识题：中国有多少个省？3 个模型都进行了正确的回答，其中 GPT-4 生成的答案最为严谨和详细，不仅说明了“截止 2021 年”（由于 GPT-4 的知识截止 2021 年）、优先列举了省份，且对具体省级行政区的名称进行了详尽的列示。行业深度研究敬请参阅最后一页特别声明 4 图表2：常识类问题的回答对比文心：GPT-3.5：（生成的文字过

9、长，截图是进行了省略）GPT-4：来源：百度文心一言官网，chat.openai 官网，国金证券研究所文字创作题：请写一个刘红发大财的故事从 3 个模型的回答来看，文心的分词能力仍有改进之处，没有对“刘红”和“发大财”进行很好的分词，而是以“刘红发”为主角进行创作。从情节设置的角度而言，GPT-4 的细节更加丰富、转折也更多，但由于生成 token 数的限制，这个故事并没有写完。此外，3 个模型的故事都体现了积极正面的价值观。图表3：文字创作问题的回答对比文心：行业深度研究敬请参阅最后一页特别声明 5 GPT-3.5：GPT-4：行业深度研究敬请参阅最后一页特别声明 6 来源：百度文心一言

10、官网，chat.openai 官网，国金证券研究所图像创作题：请画一张古典美女的油画目前只有文心一言具备文生图的能力，GPT-3.5 依然是文生文。GPT-4 理论上可以输入文字和图片，但目前图片输入的功能尚未对用户开放。图表4：图像创作问题的回答对比文心：GPT-3.5：行业深度研究敬请参阅最后一页特别声明 7 GPT-4：来源：百度文心一言官网，chat.openai 官网，国金证券研究所我们分别向 3 个模型提供演绎推理、情感推理、基于具体场景的逻辑推理问题，以及财务数据类的总结归纳问题，用以评价各模型归纳推理能力。演绎推理题：假设在一个餐厅，如果一个人点了牛排，则他一定点了沙拉。如果

11、一个人没有点沙拉，则他一定没有点牛排。现在有一个人点了沙拉，那么他是否一定点了牛排？从本题回答来看，文心在演绎推理方面的能力相对较弱，GPT-3.5 和 4 持平。图表5：演绎推理问题的回答对比文心：GPT-3.5：行业深度研究敬请参阅最后一页特别声明 8 GPT-4：来源：百度文心一言官网，chat.openai 官网，国金证券研究所情感推理题：情侣吵架后，女朋友对男朋友说：”你没有错，都是我的错。“请问女朋友是否认为自己有错？只有文心对本题给出了正确的情感推理结果，但它给出的推理过程有所偏差。GPT-4 和GPT-3.5 给出了错误的情感推理结果，但 GPT-4 给出了较为恰当的补充说明

12、。如果未来作为情感类助手，可能 3 个模型依然都还有需要改进之处。图表6：情感推理问题的回答对比文心：GPT-3.5：GPT-4：行业深度研究敬请参阅最后一页特别声明 9 来源：百度文心一言官网，chat.openai 官网，国金证券研究所逻辑推理题：为什么我总是在最后一个地方找到丢失的物品？GPT-4 的逻辑推理能力相对较强，它回答的第一段给出了正确的解释，而文心和 GPT-3.5都未能识别本题的逻辑谬误。不过 GPT-4 的第二、三段回答给出的解释也有些似是而非，整体来看 3 个模型的逻辑推理能力均有待加强。图表7：逻辑推理问题的回答对比文心：GPT-3.5：GPT-4：行业深度研究敬

13、请参阅最后一页特别声明 10 来源：百度文心一言官网，chat.openai 官网，国金证券研究所归纳总结题：问题一：请提取下文主体信息并以表格方式输出：1.经恒生电子股份有限公司（以下简称“恒生电子”或“公司”）财务部门初步测算，恒生电子预计 2022 年年度实现归属于上市公司股东的净利润约为 108,706 万元（人民币，下同），与上年同期相比将减少约 37,648 万元，减少比例约为 25.72%。2.预计 2022 年年度非经常性损益对公司净利润的影响金额约为-432 万元。预计 2022 年年度实现归属于上市公司股东的扣除非经常性损益的净利润约为 109,138 万元，与上年

14、同期相比将增加约 14,481 万元，增加比例约为 15.30%。3.预计 2022 年年度公司实现营业收入约为 650,282 万元，与上年同期相比将增加约 100,624 万元，增加比例约为 18.31%。问题二：请问恒生电子 2021 年的收入是多少？从本题归纳总结的结果而言，文心列示的表格更符合财务分析的需求，而 GPT-3.5 没有抽出重点主体信息并进行归纳。在多轮对话方面，GPT-4 展现出了更强的能力，GPT-3.5和文心在联系上下文对话方面稍逊一筹。不过文心采取了和 New Bing 一样的方式，对于自己不知道的知识进行了直接搜索，而 GPT-3.5 基于 Instruct-

15、GPT 的数据，未能给出正确答案。图表8：归纳总结问题的回答对比文心：GPT-3.5：行业深度研究敬请参阅最后一页特别声明 11 GPT-4：行业深度研究敬请参阅最后一页特别声明 12 来源：百度文心一言官网，chat.openai 官网，国金证券研究所我们分别向 3 个模型提供线性方程求解问题和代码编写问题，考察模型数理能力和代码生成能力。数学题：求解线性方程组：3x+2y=8；2x-y=1本题只有 GPT-3.5 算出了正确答案。文心答案算错，且没有给出具体运算过程。GPT-4算对了 x 的值，但是代入求解 y 值的时候出现了错误。在数学能力方面，当前模型依然有需要改进之处。行业深度研

16、究敬请参阅最后一页特别声明 13 图表9：数学问题的回答对比文心：GPT-3.5：GPT-4：行业深度研究敬请参阅最后一页特别声明 14 来源：百度文心一言官网，chat.openai 官网，国金证券研究所代码题：用 Python 编写一个程序，在一个无序数组中查找一个特定的值。要求程序的时间复杂度为 O(log n)。在本题的回答中，文心一言没有准确理解到时间复杂度O(log n)的需求，GPT-3.5 及GPT-4给出的代码为二分法搜索，只有在面对有序数组时才能满足时间复杂度要求，也非最佳答案。整体来看，三个模型在代码生成方面均有较大的改进空间，GPT-3.5 与 GPT-4 表现基本持平，略优于文心一言。图表10：代码生成问题的回答对比文心：行业深度研究敬请参阅最后一页特别声明 15 GPT-3.5：行业深度研究敬请参阅最后一页特别声明 16 GPT-4：行业深度研究敬请参阅最后一页特别声明 17 来源：百度文心一言官网，chat.openai 官网，国金证券研究所我们模拟 AI 生活助手、AI 售后客服、办公场景助手、产品推荐、教学辅导等场景对 3 个模型进行问答，用

展开阅读全文