GPT-4核心数据解密.docx
《GPT-4核心数据解密.docx》由会员分享,可在线阅读,更多相关《GPT-4核心数据解密.docx(12页珍藏版)》请在第一文库网上搜索。
1、GPT4核心数据解密7月11日,半导体咨询研究公司SemiAnaIysis发布文章,对OPenA1的GPT-4模型的架构、训练数据集、参数、成本等重要信息进行了深度揭秘文章指出,GPT-4的模型参数在1.8万亿左右、13万亿训练数据、一次训练成本6300万美元等。SemiAna1ySiS曾曝光过谷歌的内部文件我们、OPenAI都没有护城河,其真实性得到了验证。所以,此次爆料的GPT-4大模型数据,不少人认为比较靠谱。例如,此次爆料的GPT-4的参数在1.8万亿左右。前几天著名黑客GeorgeHotz在接受采访时表示,GPT-4由8个混合模型组成每个模型参数为2200亿,数据上基本一致。GPT-
2、4Architecture,Infrastructure,TrainingDatasetfCosts,Vision,MoEDemystifyingGPT-4:Theengineeringtradeoffsthat1edOpenAItotheirarchitecture.MDY1ANPA1ANDGERA1DWONG2023年7月11日PAIDQ57010ShareIfyouwi11btinHawaiiforICM1.1etu$know,1etshangout!OpenAIiskeepingthearchitectureofGPT-4c1osednotbecauseofsomeexistentia
3、1risktohumanitybutbecausewhatthey,vebui1tisrep1icab1e.Infact,weexpectGoog1e,Meta,Anthropic,Inf1ection,Character,Tencent,ByteDance,Baidu,andmoretoa11havemode1sascapab1easGPT-4ifnotmorecapab1einthenearterm.SemiAnaIysis认为,OPenA1一直不对外公布GPT-4的核心数据,并不是因为风险问题,而是GPT-4大模型是可以复制的。事实上,像谷歌、Meta.Anthropicx百度、字节跳动
4、、腾讯等科技公司,都有实力开发出这样的产品。FAIGC开放社区根据SemiAnaIysis的文章,对GPT-4大模型的核心数据进行了整理,以下内容仅供参考。模型架构GPT-4的模型参数大约是GPT-3(公布参数为1750亿)的10倍以上。SemiAnaIySiS认为,其在120层网络中总共有1.8万亿参数。Mode1ArchitectureGPT-4ismorethanIOxthesizeofGPT-3.Webe1ieveithasatota1of1.8tri11ionparametersacross1201ayersversusthe175bi11ionparametersofGPT-3.O
5、penAIwasab1etokeepcostsreasonab1ebyuti1izingamixtureofexperts(MoE)mode1.Ifyouareunfami1iarwithMoE,readourpostaboutthebroadGPT-4architectureandtrainingcostfrom6monthsOpenAI通过使用混合专家(MoE)模型能够将成本保持在合理水平。在GPT-4模型中使用了16个专家模型,每个M1P专家大约有Ino亿个参数。每个前向传递都会路由其中2个专家。虽然OPenA1在文献中大量论述了用于选择将每个token路由到哪些专家的高级路由算法,但对
6、于当前的GPT-4模型来说,OpenAI的算法相当简单。模型中大约有550亿个参数,被用做注意力机制的共享。每次的前向传播推理(生成一个token)中,GPT-4只需要使用大约2800亿参数和560TF1OPso相比之下,纯密集模型每次前向传播需要大约1.8万亿个参数和约3700TF1OP的计算量。关于混合专家模型:混合专家是一种机器学习模型,通过将多个子模型(称为“专家)的预测结果进行组合,以获得更好的总体预测效果。MoE模型的基本思想是,不同的子模型可能会在处理不同类型的输入数据时表现出优势。例如,在处理图像数据时,某些模型可能擅长识别形状,而其他模型可能擅长识别颜色。通过将这些子模型的预
7、测结果混合在一起,MoE模型可以在各种任务中实现更好的性能。训练数据OpenAI大约在13万亿token数据上训练了GPT-4o这些训练数据是重复计算之后的结果多个Epoch中的token都计算在内。据悉,谷歌的大模型Pa1M2也使用了大约5万亿token的训练数据。DatasetCompositionOpenAItrainedGPT-4on13tri11iontokens.Thismakessense,givenCommonCraw1forRefinedWebcontains5tri11iontokenshigh-qua1ittokens.Forreference,DeepmindsChin
8、chi11aandGoog1esPa1Mmode1weretrainedwith1.4tri11iontokensand0.78triDiontokens,respective1y.EvenPa1M2isa11eged1ytrainedon5tri11iontokens.EPoCh数量针对基于文本的数据进行了2个Epoch的训练,而针对基于代码的数据进行了4个Epoch的训练。此外,还有来自ScaIeAI和内部的数百万行的指令微调数据。在预训练阶段,GPT-4使用了8k的上下文长度,而32k的版本是基于预训练后的8K版本微调而来的。并行策略并行策略对于在A100GPU进行优化相当重要。为了在所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GPT 核心 数据 解密
