欢迎来到第一文库网! | 帮助中心 第一文库网-每个人都是第一
第一文库网
全部分类
  • 研究报告>
  • 学术论文>
  • 全科教育>
  • 应用文档>
  • 行业资料>
  • 企业管理>
  • 技术资料>
  • 生活休闲>
  • ImageVerifierCode 换一换
    首页 第一文库网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx

    • 资源ID:995289       资源大小:297.13KB        全文页数:14页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录 微博登录
    二维码
    扫码关注公众号登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx

    一、行业变化11、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGpT-4V12、谷歌发布RT-X并开放训练数据集OPenX-Embodiment33、MeIa推出多模态大模型AnyMA14二、持续关注标的6三、行情回顾6四、产业要闻8芯片8智能驾驶9大模型10其他11五、重要公告I1六、风险提示13图表目录图表1GPT-4V使用上下文少样本学习1图表2:GPT-4V使用视觉指针输入1图表3:GPT-4V理解现实场景1图表4:GPT-4V理解各种物体1图表5:GPT-4V使用相关视觉指示完成任务2图表6:GPT-4V使用相关视觉指示完成任务2图表7:GPT-4V在汽车保险领域应用2图表8:GPT-4V在医疗领域应用2图表9:GPT-4V的自我反思3图表10:GPT-4V多模态链使用3图表11:OpenX-Embodiment数据集情况3图表12:RT-X模型性能4图表13:AnyMA1模型结构4图表14:AnyMA1指令调整5图表15:AnyMA1效果有明显提升5图表16:AnyMA1效果有明显提升5图表17:中证人工智能指数、上证指数、沪深300指数涨跌幅比较6图表18:人工智能(中证)个股周涨幅前十名()7图表19:人工智能(中证)个股周涨幅后十名()7图表20:重点公司股票涨跌详情7图表21:人工智能行业一周重要公告12-、行业变化1、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGPT4V微软发布TheDawnof1MMs:PreIiminaryEXP1orationSWithGPT4V(ision),用来分析GPT-4V,分析重点关注GPT-4V执行各种任务的效果,作者们设计了涵盖多个领域的一系列输入,输入到GPT-4V,并观察和记录其输出,此后,他们对GPT-4V完成各类任务的能力进行评估。论文作者认为GPT-4V在处理任意多模态输入方面具有前所未有的能力,其功能的通用性使GPT-4V成为一个强大的多模态通用系统,此外,他们还认为GPT-4V独特的理解输入图像上绘制的视觉标记的能力可以催生新的人机交互方法。该文章主要包括四个方面:GPT-4V支持格式、GPT-4V任务效果、GPTdV提示技巧以及最终应用展望等。GPT-4V支持格式方面,其支持处理图像、子图像、文本、场景文本和视觉指针(ViSUa1pointers)等多种输入。此外,GpT4V还支持11MS中支持的技术,包括指令跟随、思维链和上下文少样本学习等。资料来源:微软,资料来源:微软,GPT-4V任务效果方面,作者们测试了十大任务,包括开放世界视觉理、视觉描、多模态知、常识、场景文本理解、文档推理、写代码、时间推、抽象推理、情感理解,并对各项任务结果进行评估。资料来源:微软,资料来源:微软,GPT-4V提示技巧指的是作者提出了一种新的多模态提示词技巧“visua1referringPrOmPIing”(视觉参考提示),通过在图像上指示感兴趣的物体+其他提示词,完成相关任务。资料来源:微软,资料来源:微软,在应用领域研究,作者提出了各种GPT-4V应用,例如,汽车保险领域、医学图像理解/放射学报告生成领域、零售业、工业缺陷检测、视觉情感分析等领域;See.9.4utoImumnceSec.93Medka1DamageEva1uationPrompt:Prompt:tmgrwtwriVaJa«nw19n3MfigZrdormooo<nOraa>daHkvM)WBuvManep0<1n9AwmmAm.8vgewentteV*>b03B>ed82rQ¼tMturhu<terwd“toZIP4M<<qha>MinperTrdam4Q<(ob<twtomofRePMandrtfcMEsomevmcfepartCNpMa*wTSVWqacp<tobeccbwcj<>oenotamrShwoaft»c>edtMIAuctiftfrtNgfyotro<tcfijwvh.rt><rportrtBnd®MEf99«*yiMMoragMVw9MridOMfprwd»tU1vwwofnodcm*Q0AwmTicvwghrwctnOtttfiGNWexMtom<Mt>MyaMs%f>oMr*(fro(tem19)aMAnMMVwear*runtefyegumtuH«vnot*<tonfwvnagoGFT"BkMdon2mo.cpMrSMrttvtfrm<Miar9dUorfar41»IMfeMWSTheModaa<pMendmIrartbuvper&PMrytcMTeMjcW55ictf>3t<1roe<1IsjMnVMtoWBiroMhtoMr>1cc5cnThngep(31obpTOifra<mC*Jt<AKI*KiIimyuX0iq<340etomtsne<r0r9eFurntf>fcechonWCMdHf*u<Bt>gM&FmMREaftmg*htofVT&crapfa,t«hoodra1buMra1Iffdt>bEiarXgCObo)touysorwodtoBrv00dOCrawdTiecmio(mmbrapor%waJdwdcm»errahendmodo1c<Fcvehcto.tuItftIiwtFthatm<omMCUdtowmhHtwBfddc<rm<wnmRad0i09yReportGeneratxxiEv1wonfro<nProfeont:CmetmdydtAtfcMCAm>gftM资料来源:微软,资料来源:微软,在最终展望方面,作者们主要讨论多模态插件、多模态链、自我反思、自我致性和检索增强的语言模型等。图表9:GP,-4V的自我反思图表10:GPT-4V多模态链使用资料来源:微软,资料来源:微软,2、谷歌发布RT-X并开放训练数据集OPenX-Embodiment谷歌发布全球最大通用大模型之一RT-X并开放训练数据集OpenX-Embodimen1oOpenX-Embodiment由全球33家顶级学术实验室合作,整合了来自22种不同机器人类型的数据,在超过100万个场景中展示了500多种技能和150,000项任务,该数据集是同类中最全面的机器人数据集。RT-X基于两个roboticstransformer(RT)模型构建而成。具体而言,他们使用RT-I训练RT-I-X,其中RT-1是建立在TranSformer架构上的35M参数网络,专为机器人控制而设计。此外,他们还在RT-2上训练RT-2-X,其中RT-2是一系列大型视觉语言动作模型,在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。(a)*DatasetsperRobotEmbodiment即外MW%夕/中图表I1:OPenX-EmbOdiment数据集情况使用新数据集的模型效果要显著优于原模型,此外,将其他机器人数据结合,能够实现原模型无法实现的功能:作者评估了在特定任务上(例如开门)上原模型(RT-I)与改进后模型的比较,结果显示,使用OpenX-Embodiment数据集训练的RT-I-X平均性能优于原始模型50%;作者发现RT-2-X,能够实现良好的知识迁移,学习到数据中不存在的对象和技能,作者发现,在掌握新技能方面,RT-2-X的成功率是其之前的最佳模型RT-2的三倍。这也说明了,与其他平台的数据进行联合训练可以为RT-2-X赋予原始数据集中不存在的额外技能,使其能够执行新颖的任务。图表12:RTX模型性能KOUMode1SizeHistoryIxngth1>aUM71Co-Tnuncdw/WcbInitia1(Zhcckpoin1IimeQictUSki1hiETgiiunRT-2Genera1izationEva1ua1iofi(>RT-255BnoneGoog1eRobotaction(2)RT2X55BiumeRubOIicdata(3)KI-2-.55BnoneRobo1ksdaUexceptBrid职(4)K-2-X5B2RUbOtiCSda1a(S)RT2X5B!KMMTRUtM11i3data(6)K1、5B2RaIb(Iiic<1U(7)RT2XSB2RiibiMicxdaUWeb-partrained27.3%62%Web-pevtrained7S%61%Web-pfctdned42.8%54%WCXMC1nined44.4%52%Wcb-MC1raiikrd14.5%30%<11MX11ch0%Web"(XV1ntincd48.7%47%资料来源:谷歌,3、Meta推出多模态大模型AnyMA1Meta推出了AnyMA1(Any-Moda1ityAugmented1anguageMode1),可将来自各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换到11M的文本嵌入空间。Meta使用了一个大型数据集进行预训练,包括2亿张图像、220万段音频、50万IMU时间序列、2800万段视频,所有数据集都与同一个大模型(11aMA-2-70B-Chat)对齐。AnyMA1为每种模态训练一个轻量级适配器,将输入信号投射到特定11M的文本token嵌入空间中。在预训练模态对齐方面,该研究使用了1A1ON-2B数据集的一个干净子集进行图像对齐,使用AudioSet.AUdiOCaPS和C1OTHo数据集进行音频对齐,使用Ego4D数据集进行IMU和文本对齐。图表AnyMA1模型结构资料来源:Meta,为了提高模型对不同输入模态的指令跟随能力,Meta利用多模态指令调整数据集进行了额外的微调。具体来说将输入连接为<instruction><moda1ityjOkens>这样响应目标,就同时以文本指令和模态输入为基础。对以下两种情况进行消减:在不改变11M参数的情况下训练投影层;或使用低级适应进一步调整11M行为。图表14:AnyMA1指令调整Example 1. CreativeInstructions(Image)InstructionIIromPtWriteashortstoryaboutthesceneinthisPbmo.Inc1udesomedia1oguebetweenthecharacters.ResponseTherestaurant(ab1est<xx1emptybutadornedwithremnantsofamea1.seagu111andedonitsedge,spreadinghiswingsinadisp1ayOfdominance.Witharaucouscry.heftence1yguardedthep1

    注意事项

    本文(AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx)为本站会员(lao****ou)主动上传,第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第一文库网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 001doc.com网站版权所有   

    经营许可证编号:宁ICP备2022001085号

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



    收起
    展开