深挖ChatGPT原理.docx
《深挖ChatGPT原理.docx》由会员分享,可在线阅读,更多相关《深挖ChatGPT原理.docx(12页珍藏版)》请在第一文库网上搜索。
1、深挖ChatGPT原理最近,很多非常聪明、精通技术的人都在讨论ChatGPT,但我感觉他们都没有说到点上,他们对这款机器人的核心组件以及各个部分如何协同工作,并没有透彻理解。需要说明的是,我并不是说自己了解ChatGPT的一切。我和其他人一样,包括活跃的机器学习研究人员,仍在学习和思考中。我希望通过本文说明一下自己的理解,帮助其他“落伍”的人。1机器学习:基础知识ChatGPT的核心是生成式机器学习模型家族的大型语言模型。这个系列还包括Stab1eDiffusion以及所有其他提示驱动的文本模型,现在每天新闻讨论的都是这些模型。简单来说,生成式模型是一种函数,它可以将结构化的符号集合作为输入,
2、并生成相关的结构化符号集合作为输出。下面是结构化符号集合的一些示例: 单词中的字母 句子中的单词 图像中的像素 视频中的帧将一个符号集合转换为另一个相关符号集合的方法有很多种,这些方法并不限于计算机程序。你可以编写一个使用规则和查找表的计算机程序,就像60年代的聊天机器人。2 .概念介绍:确定性与随机性在讨论关系之前,我们先来介绍两个概念,它们将在本文中反复出现:确定性:确定的过程指的是,在输入既定的情况下,必然能得到相同的输出。随机性:随机过程指的是,在输入既定的情况下,得到的输出有一定随机性,即有时得出这样的输出,有时则会得出其他输出。例如,糖果机就是确定性的,投入一块钱,转动手柄,每次都
3、能拿到一块糖。也就是说,一块钱二一块糖,永远不变。但从另一个角度来看,糖果机也是随机的,投入一块钱,转动手柄,每次都能拿到一块糖,但这块糖的颜色基本上是随机的,且每种颜色的概率取决于机器内部不同颜色的比例。五台不同的糖果机,五种不同的颜色比例,就会有五种不同的颜色输出概率分布。暂时抛开这些关键概念,下面我们来说一说为什么关系很难。3 .关系很重要符号集合可以按照不同的方式关联在一起,关系越抽象越微妙,我们就需要投入越多技术来解决需要捕捉这种关系的问题。1 .假设我们将集合cat与at-cay)关联在一起,这是一个标准的“猪拉丁”转换(Pig1atin,一种英语语言游戏,形式是在英语上加上一点规
4、则使发音改变,小孩子经常通过这种游戏秘密交流),我可以用一个简单的手写规则集来管理这种关系。2 .假设我们将集合cat与dog关联在一起,那么这两个集合可以在多个抽象级别上关联。 作为有序的符号集合(序列),二者都有三个符号。 作为三个符号的序列,二者都是单词。 作为单词,二者都指代生物有机体。 作为有机体,二者都是哺乳动物。 作为哺乳动物,二者都是家养宠物。 等等。3.假设我们将集合thecatisa1ive)与thecatisdead)关联在一起,那么就可以使用更多、甚至更高阶的概念来比较和对比这两个符号序列。所有与猫相关的概念都可以考虑,所有“活着”与“死”相关的概念也在考虑范围内。在另
5、一个层面上,许多读者会发现我们可以称之为对薛定谤猫的互文引用。4.我们再添加一种关系,thecatisimmature与thecatismature。那么此处,我们讨论的是身体发育阶段还是情感发展状态?因为它是一只猫,“immature(不成熟)的意思就是“年轻”、“孩子”等。如果句子的主语是人,那么这个句子更有可能讨论的是适龄行为的一些情感概念。在阅读上述内容时,你可以想象,随着列表项从1到4,符号之间的可能关系会出现爆炸式增长。随着可能关系数量的增加,关系本身的抽象性、复杂性和微妙性方面也在加剧。上述,不同的关系采用不同类别的符号存储和检索(从纸笔到数据中心),以有用的方式捕获和编码。对于
6、第1个关系,我们只需在一张纸上画出简单地“猪拉丁”关系,任何人看了这张图,就可以将英语单词转换为“猪拉丁”。但是到第4个例子的时候,我们就会思考一个问题:为什么机器学习会需要价值几千万美元的资源?1 .我们发现这两个集合之间可能存在的关系就像一个小宇宙。这是一个令人眼花缭乱、紧密相连的概念网络,从简单的物理特征到生物分类学,再到身体和情感发展的微妙概念,一直沿着抽象阶梯向上延伸。2 .一些更抽象的可能关系出现的可能性更大。因此,我们就需要考虑概率元素。 正如我在例子中所说,如果我谈论的是一只猫,那么成熟和不成熟更有可能是与身体发育相关的一组概念,而不太可能围绕情感或智力发育。对于上述第2条中提
7、到的概念,“不太可能”并不意味着不可能,特别是如果我们拓宽背景。例如,我们添加一些额外的词: Regardingthecatinthehat:thecatismature.) Regardingthecatinthehat:thecatisimmature.突然间,所有的可能性都发生了变化。此处,成熟和不成熟代表的含义可能就是另一个领域。概括: 当符号集合之间的关系简单且确定时,你不需要太多存储或计算能力即可将一个集合与另一个集合关联起来。 当符号集合之间的关系复杂且随机时,将一个集合与另一个集合相关联,就需要投入更多的存储和计算能力,从而以更丰富、更复杂的方式关联这些集合。4.概念介绍:概率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深挖 ChatGPT 原理
