CVPR2023京东AI研究院对视觉与语言的思考:从自洽交互到共生.docx
《CVPR2023京东AI研究院对视觉与语言的思考:从自洽交互到共生.docx》由会员分享,可在线阅读,更多相关《CVPR2023京东AI研究院对视觉与语言的思考:从自洽交互到共生.docx(8页珍藏版)》请在第一文库网上搜索。
1、CVPR2023I京东A1研究院对视觉与语言的思考:从自洽、交互到共生纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如道生一,一生二,二生三,三
2、生万物一般,赋予模型在各种视觉与语言任务上的生命力。ThismonkeyonthebackofhorseDisneymadethebestcakeofa11timeusingprojectionTinysquidf1oppingaroundontherockybottomoffishtank注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(1STM-A1,GCN-1STM2,HIP3,X-1AN4)进行开源,这些对应的源码都在GitHub上陆续公开(https:JDAICVimagecaptioning),敬请关注!缘起视觉与语言,即视觉内容理解和自然
3、语言表达,原本分属于计算机视觉(CV)和自然语言处理(N1P)两个不同的研究领域。然而在2014年,图像描述生成(ImageCaptioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和N1P领域的后继者同时打开了一个不同模态交叉融合的新世界。与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(ViSUa1Encoder)和语言解码器(1angUageDecoder)o前者负
4、责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。自洽各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(ViSUa1Understanding),亦或是由单个词出发演化至整个词序列的语言建模(1anguageMode1ing)o在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语
5、义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(AttribUteS)->关系(Re1ation)->结构(Hierarchy)0如上图,首先是2017年我们尝试在视觉内容编码的过程中引入高层的语义属性,它不仅包含图像中显著的物体,也具备背景中的场景信息。在获取高层语义属性后,我们不仅可以在特征层面将语义属性特征融合至编码特征中(1STM-A1),也可以将识别的语义属性词直接拷贝到解码出的描述中(1STM-C5)o接着在2018年,受到Bottom-Up6中通过物体检测器获取高性能的物体区域特征的启发,我们进一步



- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CVPR2023 京东 AI 研究院 视觉 语言 思考 交互 共生
