154页微软GPT研究报告（全中文版）

资源描述

1、1人工通用智能的火花：GPT-4的早期实验SebastienBubeckVarun ChandrasekaranRonen EldanJohannes Gehrke Eric HorvitzKamarPeter LeeYin Tat LeeYuanzhi LiScott LundbergHarsha NoriHamid PalangiMarco Tulio RibeiroYi Zhang微软研究院摘要人工智能（AI）研究人员一直在开发和完善大型语言模型（LLMs），这些模型在各种领域和任务中表现出非凡的能力，挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4Ope23，是使用前

2、所未有的计算和数据规模训练出来的。在本文中，我们报告了我们对GPT-4早期版本的调查，当时它还在OpenAI的积极开发中。我们认为，（这个早期版本的）GPT-4是新一批LLM的一部分（例如，与ChatGPT和谷歌的PaLM一起），它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明，除了对语言的掌握，GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而不需要任何特殊的提示。此外，在所有这些任务中，GPT-4的表现都惊人地接近人类水平，而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度，我们认为可以合理地将

3、其视为人工通用智能（AGI）系统的早期（但仍不完整）版本。在我们对GPT-4的探索中，我们特别强调发现它的局限性，并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战，包括可能需要追求一种超越下一个单词预测的新范式。最后，我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。内容1介紹41.1我们研究GPT-4情报的方法71.2组织我们的示范活动。82多模态和跨学科构成132.1综合能力.132.2愿景.162.2.1超越记忆的图像生成.162.2.2按照详细的指示生成图像（a la Dall-E）。.172.2.3在草图生成中可能的应用.182.3音乐.193编码213.1从指令到代码.

4、213.1.1编码挑战.213.1.2现实世界的情景.223.2了解现有代码.26arXiv:2303.12712v1 cs.CL 2023年3月22日24数学能力304.1与GPT-4的数学对话.314.1.1对原问题的第一个概括.314.1.2原问题的第二个变体.324.1.3对谈话中强调的局限性的分析.344.2数学问题数据集上的表现.354.3各个领域的数学建模.374.4高等数学.395与世界的互动435.1工具的使用.435.1.1使用多种工具来解决更复杂的任务.445.1.2讨论.495.2体现的互动.495.2.1热身运动：地图导航.495.2.2基于文本的游戏.495.2.3

5、真实世界的问题.525.2.4讨论.536与人类的互动546.1了解人类：心智理论.546.1.1测试心智理论的具体方面.546.1.2在现实的场景中测试心智理论.546.1.3讨论.606.2与人类对话：可解释性.607辨别能力697.1PII检测.697.2误解与事实核查.707.2.1为什么目前的衡量标准是不充分的？.717.2.2担任法官的GPT-4.738GPT-4所强调的自回归结构的局限性768.1用两个基本的例子进行热身.768.2在算术/推理问题上缺乏计划性.778.3在文本生成中缺乏规划.789社会影响829.1错误世代的挑战.829.2虚假信息和操纵.839.3偏向.869

6、.4人的专长、工作和经济.899.5影响因素和考虑因素的组合.9010 方向和结论9210.1 智能、人工智能和AGI的定义.9210.2 在通往更普遍的人工智能的道路上.9310.3 实际上发生了什么？.94一个GPT-4有常识性接地101B 多模态和跨学科组成的附录105B.1关于综合能力结果的进一步细节.105B.2关于视觉结果的进一步细节.1083B.3平面小说设计实例.110C 编码部分的附录111C.1 测量人类在LeetCode上的表现.111C.2 GPT-4可视化IMDb数据的例子。.112C.3 更多关于可视化的例子.115C.4 二维HTML游戏开发实例.116C.5 图

7、形用户界面编程的例子.116C.6 逆向工程的例子.119C.7 测试GPT-4执行（伪）代码的能力.121D 数学推理的其他例子122D.1 限制条件.122D.2 更多的例子.126D.3 用GPT-4生成数学问题.138D.4 通过外部代码执行减轻计算错误.139E 其他可解释的例子141E.1解释代理不匹配.141F 与世界互动的其他例子144F.1与工具互动.144F.2与环境互动的例子.1494一些未知的东西正在做我们不知道的事情。-阿瑟-爱丁顿爵士1简介智力是一个多方面的、难以捉摸的概念，长期以来一直对心理学家、哲学家和计算机科学家构成挑战。1994年，一个由52位心理学家组成的

8、小组试图抓住其本质，他们在一篇关于智力科学的社论中发表了一个广泛的定义Got97。该共识小组将智力定义为一种非常普遍的心理能力，其中包括推理、计划、解决问题、抽象思考、理解复杂概念、快速学习和从经验中学习的能力。这个定义意味着智能并不局限于某个特定的领域或任务，而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中，现代人工智能（AI）研究学科的创始人提出了一系列理解智能的理想目标MMRS06。几十年来，人工智能研究者们一直在追求智能的原则，包括可推广的推理机制（例如，NSS59,LBFL93）和构

9、建包含大量常识性知识的知识库Len95。然而，人工智能研究中最近的许多成功可以说是狭隘地专注于定义明确的任务和挑战，例如下棋或围棋，人工智能系统分别在1996年和2016年掌握了这些任务。在1990年代末和进入2000年后，开发更普遍的人工智能系统的呼声越来越高（例如，SBD+96），该领域的学术研究也试图确定可能成为更普遍的智能系统基础的原则（例如，Leg08,GHT15）。2000年代初，人工通用智能（AGI）这一短语被推广开来（见Goe14），以强调从狭义的人工智能（如正在开发的专注的现实世界的应用）向更广泛的智能概念发展的愿望。我们使用AGI来指代那些表现出上述1994年定义的广泛智

10、能能力的系统，同时还要求这些能力达到或超过人类水平。我们用AGI来指代那些表现出上述1994年定义中的广泛智能能力的系统，以及额外的要求，也许是在共识小组的工作中隐含的，即这些能力达到或超过人类水平。然而，我们注意到，没有一个单一的AGI定义被广泛接受，我们在结论部分讨论了其他定义。过去几年，人工智能研究中最显著的突破是大型语言模型（LLMs）在自然语言处理方面取得的进展。这些神经网络模型基于Transformer架构VSP+17，并在大规模的网络文本数据体上进行训练，其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。在本文中，我们报告了由OpenAI开发的新LLM的证据，它是GPT

11、-4Ope23的早期和非多模态版本，根据1994年的定义，表现出许多智能的特征。尽管是纯粹的语言模型，这个早期版本的GPT-4在各种领域和任务上表现出显著的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中，我们使用纯粹的自然语言查询（提示）与GPT-4进行互动1.在图1.1中，我们展示了GPT-4输出的一些初步例子，要求它以一首诗的形式写出素数的无限性证明，用TiKZ（一种在LATEX中创建图形的语言）画出一只独角兽，用Python创建一个复杂的动画，并解决一个高中水平的数学问题。它很容易成功地完成了所有这些任务，并产生了与人类所能

12、产生的结果基本上没有区别（甚至更好）的输出。我们还将GPT-4的性能与之前的LLM进行了比较，最值得一提的是ChatGPT，它是GPT-3的微调版本（改进版）BMR+20。在图1.2中，我们展示了ChatGPT对素数无限大的诗和TikZ独角兽图的要求结果。虽然该系统在这两个任务上的表现都不差，但与GPT-4的输出结果相比，却没有什么区别。这些初步的观察结果将在本文中重复出现，在各种任务上都有体现。GPT-4的能力具有普遍性，其众多能力跨越了广泛的领域，其在广泛的任务中的表现达到或超过了人类水平，这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。1由于GPT-4的发展在我们的实验之后继续

13、进行，人们应该期待GPT-4的最终版本有不同的反应。4.特别是，所有的定量结果应被视为对模型潜力的估计，而不是确定的数字。我们在整个文件中重复了这一警告，以澄清所部署的模型的经验可能有所不同。此外，我们强调，我们测试的版本是纯文本的输入，但为了简单起见，我们也把它称为GPT-4。GPT-4提示：你能写一个证明，证明有无限多的素数，每一句都押韵吗？GPT-4：是的，我想我可以、虽然这可能需要一个巧妙的计划。我首先要指出欧几里德的证明、这表明，素数并不只是冷漠的。假设我们有一个有限的列表、诸如此类的素数，而且一个都没有漏掉。将它们全部相乘、为了聪明起见，再加一个。结果将是一个数字、这没有质因数，哦

14、，奇怪！但每个数字都有质因数！但每个数字都有一个素数、这就划分了，这只是一个时间问题。所以我们发现了一个矛盾、我们有限的名单需要被驱逐。一定有无限多的素数，这就是我的押韵句子的结局。提示：在TiKZ中画一个独角兽。GPT-4：产生LATEX编译为以下图片。提示：你能为以下数据生成一个pyplot：x=1,3,5,6,8,y1=2,3,5,18,1,y2=3,5,6,8,1,y3=5,1,2,3,4,y4=9,7,2,3,1。我希望y1、y2在同一个图中，但y3在该图旁边的另一个图中，y4在下面。我希望y1的图例是bob，y2是 alice，y3是 bilbo，y4是 allie。我想在x轴上标

15、明时间，y轴上标明金钱。我想在每条曲线上添加一个10-40的随机误差条，贯穿所有时间（包括非整数）。我想用平滑的曲线来显示图，以及平滑的误差条。不要使用线性插值，要使用平滑插值!我还想在平滑的曲线上添加一些小的之字形，使它看起来更真实。我想把一条基线作为每条线的平均值。我想在下面放一个饼状图，表明每个时间步骤中四个人的比例。我还想用一个动画来显示饼状图中的分数是如何在*连续的时间内变化的。把缺失的分数插值出来!我还希望其他三个图中的垂直线动画能与饼状图相匹配。我想要最漂亮的图。请尽可能多地添加花哨的东西。下面是一个可能的代码，用于生成以下数据的pyplot，并有一些注释来解释步骤：GPT-

16、4:我们给出了两个由制作的代码产生的动画快照。提示：假设g（x）=f1（x），g（0）=5，g（4）=7，g（3）=2，g（7）=9，g（9）=6什么是f（f（6）？GPT-4：有不同的方法来处理这个问题，但一个可能的方法是利用g(x)=f1(x)这一事实，这意味着对于g域中的任何x，f(g(x)=x。也就是说，将f应用于方程g(x)=f1(x)的两边，得到f（g(x)）=f（f1（x）=x。这意味着，我们可以通过应用g撤销f的影响，反过来也是如此。利用这个想法，我们可以尝试通过寻找x的值使g(x)=6来找到f(6)。从给定的信息中，我们看到g（9）=6，所以f（6）=f（g（9）=9。同样地，我们可以通过寻找x的值使g(x)=9来找到f（9）。我们看到g（7）=9，所以f（9）=f（g（7）=7。最后，我们可以通过寻找x的值使g(x)=7来找到f（7）。我们看到g（4）=7，所以f（7）=f（g（4）=4。因此，f（f（6）=f（9）=f（7）=4。图1.1：GPT-4在语言、视觉、编码和数学方面的能力的初步例子。6图1.2：图1.1中前两个提示的ChatGPT输出。我们声称GPT-

展开阅读全文