人工智能行业专题报告.docx
《人工智能行业专题报告.docx》由会员分享,可在线阅读,更多相关《人工智能行业专题报告.docx(32页珍藏版)》请在第一文库网上搜索。
1、人工智能行业专题报告AI大模型需要什么样的数据集数据将是未来A1大模型竞争的关键要素人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用R1HF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。基于此,人工智能领域的权威学者吴承恩发起了“以数据为中心的AI”运动,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗
2、和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。因此,我们认为未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。82:以4t再申心的AI:蹩不更.我们认为A1大模型需要高质量、大规模、多样性的数据集。1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。2)大规模:OpenA1在Sca1ing1awsforNeura11anguageMode1s)中提出11M模型所遵循的“伸缩法则”(sca1ing1aw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。3)丰富性:数据丰
3、富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。数据集如何产生建立数据集的流程主要分为1)数据采集;2)数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题;3)数据标注:最重要的一个环节;4)模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型;5)模型测试:审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型;6)产品评估:产品评估人员使用并进行上线前的最后评估。IIA4:流程#1:数据采集。采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方
4、式,分别为:1)系统日志采集方法;2)网络数据采集方法;3)ET1o流程#2:数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故需要执行数据清洗任务,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了A1算法的有效性。流程#3:数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。流程#4:最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估
5、。他山之石#1:海外主要大语言模型数据集参数量和数据量是判断大模型的重要参数。2018年以来,大语言模型训练使用的数据集规模持续增长。2018年的GPT1数据集约4.6GB,2023年的GPT-3数据集达到了753GB,而到了2023年的Gopher,数据集规模已经达到了10,55OGB。总结来说,从GPT1到11aMA的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit链接、CommOnCraWI和其他数据集。A9:t*9*a*itMI大梗型RedditUMCommonCraw1GPT-14646GPT-240GPT-311421101570753ThePi1ev1611824
6、4227167825Megatron-IIBMT-N1G11.44610716164118779831271374Gopher12.5210016443450482310550I11aMA838592410.24064828.2数据集#1:维基百科维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成
7、,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。数据集#2:书籍书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorPUS)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwordso数据集#3:期刊期刊可以从ArXiV和美国国家卫
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 行业 专题报告