何恺明MAE局限性被打破与Swin Transformer结合训练速度提升.docx
《何恺明MAE局限性被打破与Swin Transformer结合训练速度提升.docx》由会员分享,可在线阅读,更多相关《何恺明MAE局限性被打破与Swin Transformer结合训练速度提升.docx(5页珍藏版)》请在第一文库网上搜索。
1、自何恺明MAE横空出世以来,MIM (Masked Image Modeling)这一自监督预训练表征越来越引发关注。但与此同时,研究人员也不得不思考它的局限性。MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。于是,一场整合的范式就此在研究团队中上演。代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了 Swin Transformer在MIM中的应用。但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8
2、个32GB GPU的机器上完成训练。基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。Green Hierarchical Vision Transformerfor Masked Image ModelingLang Huang Shan You; Mingkai Zheng Fei Wang2t Chen Qian Toshihiko Yamasaki11The University of Tokyo; 2ScnseTimc Research; 3The University of Sydney(langhuang, yamasakiOcvm. t u-tokyo .ac.
3、jpyoushan.wangfei,qianchen)sensetimecom. mzhe4001CuniSydneyedu.u-i不光将Swin Transformer整合到了 MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%0来康康这是一项什么研究?当分层设计引入MAE这篇论文提出了一种面向MIM的绿色分层视觉Transformer。即允许分层ViT丢弃掩码图块,只对可见图块进行操作。Stagel Stage2 Stage3 Stage4EncoderGreen Httirdrchical Vi l wit
4、h Group Window Attention一| MSE |MSEMSE| MSE |mse| MSE |Decoder:Isotropic vrrMethod Overview.具体实现,由两个关键部分组成。首先,设计了一种基于分治策略的群体窗口注意力方案。将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。 M3SK Lm Z1: 一MaskedAtterH一 onGroup Attention Scheme,其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。Algonthm 1 Optimal GroupingRequi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升 MAE 局限性 打破 Swin Transformer 结合 训练 速度 提升