算力专家电话会20230529.docx
问答环节:Q:英伟达GH200对光模块和PCB厂商有什么影响?1)光模块:光模块更多在系统之间的高速互联,除了IooG和200G国内兼容性好,英伟达CX7这种400G高端场景,国产支持不太好。另外这些系统实际对光模块需求量不是很大,除非是大规模集群设计。综合认为在大规模A1场景中,国内光模块厂商不会扮演重要角包;他们更多在信创、传统数据中心(25G、100G)这些中低端市场有一些份额。2)PCB:对PCB要求越来越高,封装对基板要求也更高;高端PCB需求可能会高速增长。Q:PCB的ASP会提升,但PCB用量是下降的?整体PCB量没有明显下降,而且ASP上升,对PCB厂商是好事。Q:GH200、MI300封装技术的优点是什么?渗透速度会如何?对于需要完整一体化方案的场景有优势,高度集成、性能提升30%-40%(保证CPU和GPU之间内存一致性),对于英伟达推广自己云服务也是好的解决方案。但对于很多互联网厂家不是很愿意,他们希望更开放的设计,否则只能绑定在上述产品架构上,而且价格溢价能力变弱;大的市场可能不会有很大市场份额,小于10%。英伟达推出GH200主要用于弥补CPU体系不足,构建完整的生态,不要过分依赖于CPUx86环境;AMD则是主要用于跟英伟达竞争。Q:寒武纪跟百度合作的情况怎么样,百度有没有使用思元590?百度文心一言没有使用思元590,只是早期做了适配,小规模部署500多片,实际上线并没有使用;目前主要用A1OO和昆仑芯2代。之前是建立开发团队配合开发,但实际部署结果来看,590性能指标不如A1O0,而且架构不太兼容、难度大,所以百度没有用.寒武纪目前的产品不太适合大模型迭代,软件生态问题比较大;比如百度模型在不断迭代中,而每次迭代都需要思元590进行适配和优化,工作量太大,不适合百度开发;另外架构和指令集都比校特殊,不可控因素太多未来发展上需要进行主流几个框架的支持,但目前支持都不太好,大模型场景使用有难度。Q:快手传言使用了寒武纪思元590?快手没有使用大模型,只是使用了一些传统AI技术、小模型,不涉及大规模系统并行,思元590可以支持。Q:国内芯片厂商里沐曦相对好一些?沐曦综合情况好一些(软件跟CUDA兼容,团队是AMD原来开发MI200的核心团队),但产品还没出来,只能做初步评价。Q:A1oo和HIOo在国内受限,国内下游厂商是不是对国产芯片持开放态度?态度开放,都需要找一些替代产品进行平衡,但性价比是关键因素。Q:模型迭代是否使得推理算力需求降低?未来头部大厂会出现预训练大模型,而更多模型会是垂直领域小模型,对算力需求碎片化;大规模算力只有头部厂商有需求,其他厂家只需要小模型、小算力。不过整体需求还是快速增长,特别是推理需求,训练需求可能慢慢放缓。Q:国内厂商算力储备大概什么量皴?向英伟达采购量增长多快?目前大厂各自手中估计有2k-3k片A1OO存货量,此前购买的大部分被常规业务占有,比较难拿出富裕算力(除非要把现有业务停掉,能凑出万片左右进行训练)。国内互联网厂家3月份向英伟达进行38亿美元采购,年底才能陆续交货,持续交货到2024年;所以后面短期可能增速变慢。Q:AMDMI300的性能怎么样?进展如何?价格水平?未来空间?1)性能:MI300等比性能接近MI250两倍,整体性能应该是H1Oo的1.5-2倍;核心架构类似英伟达GH200;软件支持对CUDA兼容。2)进展:国内对应叫MI388,8月份可能提供测试样品;认为是非常强的产品。3)价格:MI388国内大概222.4万美金,非常接近H800。4)用途场景:跟GH200完全一致,可以用于HPC、A1计算(性能很高,因为集成了CPU,不再需要单独CPU,板子上只需要MI300)O5)竞争空间:对英伟达GH200、H1OO形成竞争压力,性价比具备优势;但在AI领域,MI300还有一定距离,主要是软件兼容性有一定差距(虽然支持CUDA兼容,但维护团队不够,并且跟目前典型大模型还没有适配案例,客户不了解)。Q:MI300下游客户有谁?国际主要是HPC场景,比如政府超算;国内字节、腾讯在做测试,但因为软件还不是很成熟,所以只能做算力评估,还不能做综合性能、大模型使用场景的评估。Q:哪些厂家扶持AMD竞争NVDA?国内外厂家都积极在跟AMD接触,比如微软、AMD、字节、腾讯,他们都对英伟达的溢价和垄断体系有一定的诟病。PpT环节:大模型生产流程更简单,但对基础设施要求更高当前大模型生产范式的转变模型迭代业务逻辑A1模型A腰型*a*VtiJAjm手工标注传统A1实现大模型实现国内外算力市场发展区别:1)国内厂商主流集群规模小(比如A1OO),很难有专门用于大模型训练的集群;国外有大量主流集群2)国内开发框架不开源,模型市场分化;国外集中单一,开源,生态好3)具体模型上,国内大部分是基于国外开源进行微调,多数没有掌握核心;国外开始向垂直领域渗透4)应用方面,国内以内场应用为主,节奏较慢刑GC市场发展分析国内国外内场应用为上应用SMS及履滞后.集中在文本和阕片生或相箕的文化与2;木类场景科大旗飞、拓尔思等内场1*阴SmS:Jasper.Stabi1ity.PUy.htMiourny>梗M主要以开源棺里为总母.如GX12McgMronTS快察以GFTT.GFTY规模和技术为核C自研算力加速卡MeuMT1Av1(7nm128G1PODR5FP16S1.2THopS,IMT8102TOPSjDP25W>Ba1dii昆仑芯3Tncnt>M®MicrosoftAthensVVO。Goot1eTPU¥4国内大模型偏好:看好智谱、复旦,在部分研究场景有优势。360智脑eChat1D小米未公开人工智能公司k-?出门问问序列JR子面壁科技为的图A1竹间智能QJ写作5MS行DriwGPTMiniMax未公开MKa文ProductGPT武汉AI院哀东太初解M-BOB知海图A1昆仑万ItAt1Me王礴文SHf王小川未公开李开霞PrpjectAI上海A1院智源悟道2.0IiM1曾柄网易有道子日学而思MdthGPI(B关模型对算力架构的影响口前可以参考的有英伟达的GPr(A1OO和HIO0),GOOg1e的TP1+Tensorf18.华为界腾AtIaS800+MindSore,英特软件挑战o系统和集群管理O大规模分布式训练和推理的眸法和框架建设及优化,DataPara11e1,Mode1Para11e1,Pipe1inePara11e1ActivationCheckpointing,Off1oading尔SPR+Habana/XeGPU硬件挑战。单长:更大的算力.更多高速内存:,多卡:高带宽、低延时卡间互联。集群:分布式,K时间积定运行,高效利用所杳硬件资源OQ巨量数据预处理及优化大模型部署的关键影响因素部署技术: W''i.'大将影响用户的选杵,相对00、AIOO的性价比提升 单芯片硬件利用率,片上内存(onchipmea>ory)和容=将能够诚少延迟 芯I.犷及影响犊型和数据并行芯片间互连的带宽(P(I。匚行.(IX.以太网) 系统到系统的扩展IB以太网或其他使用成本: 靠力(硬件或公)和数据(成本和质量)是大模型的核心 H常大模型FinoTin:勾150万美金次(训练$0.0300IKtokens1推理$01200IKtokens) 应用价格随用户访问量线性增长,*J<ord$0.0003.每次提问成本约2-5美分.硬件出货量:23年市场增速快,英伟达季度增速更快(原因考虑是单季客户爆发性增长,全年可能不如Q2);24年之后算力普及,增速进入平稳。JS计国内2O232O27数据中心加速设番出优量13873341,«7.7441.99M17241,S50273%21.7%18.4%10.9%»»2O222O2118mRtHvfcaHuawvigdu室武之fitKXImtiOthen-VoYGrowth技模M统计训练和推理比例:国内训练和推理比例一般是1:4,而国夕卜1:72023国内E要数据中心加速设备68.069.6%市场增长率OO目前认为只有GPGPU/ASIC能满足大模型算力场景;存算一体也能用,其他像CPU、DPU.FPGA已经不太能使用大模型场景。BI力芯片大模型性能比较GPGPU/ASICCPUDPUFPGA存算一体芯片如Cerebras|训练FP32精度支招.URffatTFUI:支将.BeH几个TFi».几个TF不支给支砂推理FP16精度支持,15ft½EftTF支精.ain支持.卜几TF不支持£1».EfiTF推理混合精度支持支持,性能«不支持不支持支持内存支特片上内存不支持片上内存片上内存空间“以片上内存空阈均IBH上内存空向有果片间互联支持丈杼仅有双路或4路16Gi不支持台限支持有阳支持主要特点敕众,的运W十元.用横前的温水线进行金,适合计合宙集.H户并行的程序nifr,t间中代力 na.s度能力号 1s*itt11HUH2少.运合物时H朵的事fr½W时特定任务槛供卸收.工作量大ttJfS计评单元多支持,核并M计算fti钟对大模型的支持谆力.并行化力内住优化的要求士成熟,计对大KJM11”行较长酎州的实用案例.JJ,大H1M闲蜂但应本A.&度大夫根型推理H,GPUfCAS1C可以配合CP5GPUW法部分tJRM处理需求理和询擦任务价格较舟.(;适大悌I",,;TGPU效卑W功能上劣T号用芯片As1C£椅大帆仅推J1IniM缄任务<<sw*前人工智能领域的主流芯片厂商及型号NVIDIAV1OONVIDIAA180GSXMNVIDIAH1SXMNVIDIAH1PCIAMDMI25OXHabanaGaudi2Inte1XeonHBMTDP300W400W700W35OW56OW600W35OWFP647.89.7302447.9N/A7.8FP3215.719.5604847.911615.7TF32TFN/A156*500*48N/A21172.4FP16/F16TF31.4/125312*o8383433209Int8TOPsN/A624200016,3831792430FP8TFN/AN/A200016N/A1792GPUMemory32GBHBM28OGHBM2eGBHM380GBHBM312GBHBM296G8H