2023年计算机专题研究报告.docx
《2023年计算机专题研究报告.docx》由会员分享,可在线阅读,更多相关《2023年计算机专题研究报告.docx(19页珍藏版)》请在第一文库网上搜索。
1、正文目录GPT发展之2021:参数量维埃加大,应用于代码生成领域3GPT发展之2023:模型参数提升到1750亿4GPT-3:模型参数达1750亿,few-shot进一步提高性能4模型特点:大参数量+大训练集+few-shot4特点一:架构基本不变,参数量大大增加4特点二:采用few-shot学习完成下游任务6特点三:预训练数据集达570GB以上7论文结论:FeW-ShOt在多种N1P数据集上实现了较好性能8GPT发展之2023:代码生成领域的应用一Codex9Codex:基于GPT3的代码生成工具9模型对比:gpt-2vsT-N1gze1ectranT-N1G:问世时最大规模的自然语言生成模
2、型11MT-N1G:与NVID1A合作推出5300亿参数模型12对比:(M)T-N1G相比GPT-3更注重利用软硬件上的优势14E1ECTRA:注重提高预训练效率的“小而美”模型15对比:E1EeTRA相比GPT-3更注重小规模、更有效的预训练17总结:2023-2023年是GPT发展的关键阶段17风险提示18GPT发展之2021:参数量继续加大,应用于代码生成领域20-21年,GPT-3模型参数量达到1750亿,并在代码生成领域成功应用。2019年问世的GPT-2,证明了更大的训练参数量和数据集能获得很好的训练结果,明确了GPT发展的大容量路线,并开始尝试泛化能力更强的ZerO-Shot学习
3、(零次学习)。在此基础上,2023年5月,OPenA1发表论文1anguageMode1sareFew-Shot1earners推出GPT-3,将模型参数量提高到1750亿,达到GPT系列模型的最大规模,训练数据集大小超570GB,此外,将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2023年,基于GPT-3,OPenA1推出通用代码生成模型CodeX。微软与谷歌也分别提出了自然语言处理模型T-N1G和E1ECTRAeT-N1G与GPT-2同样采用TranSformer解码器架构,其最大特点在于训练参数远高于同时期的其他模型,得益于微软在软件和算力资源
4、上的优势。E1ECTRA最大特点在于不再追求大规模的参数,转而通过提高预训练效率来训练“小而美”的模型。阳豪1:2017-2023年主要自然语言模型梳理OpenAIOpenAIODeepMndQDeecMndTransformer%*JK2023.10110亿:3.9亿20232018.62019.22023.22023.52019.62019.72023.32019.92019.102023.62018.1TranstormerM5S.*S2019.1益T52019.10BART2019.10B1gB1rd2023.7201720182023.4钦OpenAI2023.8OpenAIBnsf
5、ormer解码居模/名卷GPT-3T-N1G/MT-N1GE1ECTRA模型祭构弊马葬DeCOder弊马EDeeOderEEncoderM*15亿170fc5300-fc*14M,最大175M桢心取舍比GPT2更大的看量,建大的调KtJM1Mfew-Shot充分利用便代*NVIDIA的长及件采用诙林再期发型的更大办象量反其道而行.itit*W1%大大第小模型M雄救货料来源:各公司官网、各横曳论文、华泰研究GPT发展之2023:模型参数提升到1750亿GPT-3:模型参数达1750亿,fewshot进一步提高性能GPT3将训练参数量扩大到1750亿。2023年5月,OPenA1发表论文1angu
6、ageMode1sareFew-Shot1earnersX提出GPT-3模型。GPT-3模型的参数量达1750亿,是GPT史上最大的参数规模。在GPT-2的ZerO-ShOt1earning(零次学习)基础上,GPT-3在ZerO-Shot、One-Shot(一次学习)和few-shot(少量学习,通常I(MOo次)方面均进行了评估,取得了较好的训练结果:例如,GPT3在ZerOonefew-shot设置下CoQA(测试阅读理解能力)分别达到81.5、84.0、85.0FI(F1分数是统计学中用来衡量二分类模型精确度的一种指标,值越大意味着模型越好);在在zero/one/few-shot设置
7、下TriviaQA(测试闭卷问答能力)分别达到64.3%、68.0%、71.2%的准确度,部分结果甚至超过微调模型。OPenA1指出,GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延埃了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新南度。同时与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,见原了训练效果与成本。S论文标志GPT-3问世1anguageMode1sarcFew-Shot1camcrsGmc*aKnartCVTMNHca1uammSandMoiABMw.AMHerbCrMCMKmn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 计算机 专题研究 报告