ChatGPT 的真相:虚拟人和母体以及强泛化的秘密.docx
《ChatGPT 的真相:虚拟人和母体以及强泛化的秘密.docx》由会员分享,可在线阅读,更多相关《ChatGPT 的真相:虚拟人和母体以及强泛化的秘密.docx(19页珍藏版)》请在第一文库网上搜索。
1、ChatGPT的真相:虚拟人和母体,以及强泛化的秘密本文从ChatGPT带来的即时学习能力(in-context1earning)入手,逐步深入地探讨了ChatGPT目前众多的关键性问题,包括:1. ChatGPT带来了从未有过的计算层次:虚拟人2. ChatGPT带来的新的智能计算构架:母体和虚拟人3. 在人类语料知识用尽的时候,新的智能架构如何成长,如何吸收新的技能4. 强泛化能力的解释,以及大模型能力涌现的可能原因5. 一本正经胡说八道问题的原因和长、短期解决方案6. ChatGPT如何细化到垂直领域,比如法律领域。本文并不是对已发表的大模型论文的技术总结,不是一篇综述文章,而是基于笔者
2、自己的研究分析去探索上述问题的答案。希望能起到一个抛砖引玉的作用。文章的写作跨度比较长,大部分的写作完成于OPenA1推出P1UginS功能之前,所以有少部分技术内容显得有些滞后了。1 ChatGPT带来的崭新技术:即时学习能力在OpenAI的GPT-3出现之前,以往的深度学习模型只是为某个特定任务开发的,比如,翻译、分类、摘要、信息抽取等等。每个任务都有一个专用的模型,都需要人类标注员专门为这个任务生成大量的标注数据用来训练模型。而OpenAI采用自监督的方式来训练它的超级大模型GPT-3,不需要任何人类标注数据。它使用了巨量的50TB的文字语料,其中大部分来自互联网。而它所做的唯一一件训练
3、任务就是根据文本中前面看到的文字,不断的预测下一个文字是什么。这个1750亿参数的模型充分训练完成以后,就诞生了一件非常奇妙的事情:模型即时学习的能力,术语叫做in-context1earning(也可翻译为文中学习)o因为GPT-3有根据前面的文字不断预测下一个文字的能力,所以它可以生成文本,可以和人对话。即时学习能力就是指GPT-3在这个交互过程中可以马上领会到你的指令的意图、执行你的任务,并且可以即时学习到新的知识和技能。ChatGPT通过一个良好的人机交互对话界面,充分释放出GPT-3的即时学习能力。诞生了超强的即时学习能力以后,以ChatGPT为代表的大模型就成了一个新的物种,区别于
4、以往为专用任务开发的深度学习模型。大模型不再是任务的执行者,它的角色将转换为底层的赋能者,而它创造出来的形形色色具备即时学习能力的“虚拟人”将成为真正的任务执行者。机器学习训练的传统范式也将发生根本性的改变。我们先从下图中的一个简单的例子看起。ChatGPT通过即时学习的能力记住了我教给它的新知识一中国2022年的人口总数,并在后面的人口列表中使用上了这个新知识。这是多么惊叹的一种能力!按照以往的范式,我们要改变模型存储的知识,需要用新数据在模型上进行多轮的训练。比如,往模型里增加中国2023年的人口总数这个事实,就是非常棘手的一件事情。因为我们不确定训练多少轮以后,模型才能够记住这个事实。而
5、且,我们也不确定对这些新数据训练之后,是否会破坏模型中存储的其他知识。科研界目前也在努力解决这个问题,出现了一个新的研究方向,叫做neura1editingo但是大模型即时学习的能力实际上已经解决这个问题了,而且是用一种近乎完美的方式:一条指令,一步到位。你这时候可能会反驳说,这条新知识其实并没有真正存储在ChatGPT大模型里面,因为当你打开一个新的对话的时候,这个知识就不存在了。然而,这恰恰是大模型非常大的一个优点:即时学习学到的东西是和母体脱离的,这样就可以实现大模型上层任务的定制化,实现各种各样不同的应用。而所有的这些都不会改变底层大模型的任何参数。底层大模型就像操作系统一样,以赋能者
6、的身份存在。中国2023年的人口总数是多少?很抱歉,我无法给出2023年的中国人口总数,因为我的知识截止于2023年9月,而且我没有实时访问实时数据的能力。您可以查阅相关的人口统计数据或向相关机构查询最新数据。1U请记住,中国2023年的人口总数是14.1175亿很抱歉,我不能确认这个数字是否准确,因为我的知识截止于2023年9月,而且我不能访问最新的人口统计数据。如果这个数字是准确的,那么根据这个数字,2023年中国的人口总数将达到14.1175亿。请将中国2023年到2023年的人口总数用列表显示出来回根据2023年的数据,我可以提供以下列表,显示从2023年到2023年中国的人口总数:
7、2023年:14.65亿 2023年:14.932亿 2023年:(预测值)14.1175亿请注意,2023年的数字是预测值,实际数字可能会有所不同。同时,这些数字可能会因为各种因素而发生变化,因此这些数字仅供参考。具备即时学习能力的“虚拟人”可以看作是一种应用程序,它的状态是可以存储的,可以读取的。你教授给它的新知识和新技能并不会丢失。目前ChatGPT能记住4000个(GPT-4是32000个)汉字的上下文关联。这就意味着我们当前对话中前4000个字里面描述过的知识和技能,ChatGPT都不会遗忘。今后,技术的发展肯定会带来更大的记忆体空间。越大的记忆体就意味着越高的“虚拟人”定制化水平,
8、越宽广的任务适用范围。我们再列举一些ChatGPT通过即时学习能力学习新技能、新任务的例子。第一个例子是关于七言律诗的学习。你如果直接让ChatGPT写七言律诗,它会写得很不符合格式,很随意。但是如果先将百度百科中关于七言律诗的定义告诉ChatGPT以后,ChatGPT就可以写出非常工整的七言律诗。它可以从你给它的定义,马上学习到七言律诗是什么。网络上有很多教ChatGPT各种奇奇怪怪新技能和指派新任务的例子。有人发明了一种新的语言,教给ChatGPT以后,他和ChatGPT就可以用这种新语言交流了。有人让ChatGPT去模拟一个IinUX内核接收用户的指令,ChatGPT模仿得非常逼真。所有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 的真相:虚拟人和母体,以及强泛化的秘密 真相 虚拟 人和 母体 以及 泛化 秘密