自注意力机制在计算机视觉中的应用腾讯云开发者社区

在神经网络中,我们知道卷积层通过卷积核和原始特征的线性结合得到输出特征,由于卷积核通常是局部的,为了增加感受野,往往采取堆叠卷积层的方式,实际上这种处理方式并不高效。同时,计算机视觉的很多任务都是由于语义信息不足从而影响最终的性能。自注意力机制通过捕捉全局的信息来获得更大的感受野和上下文信息。这次的分享主要从自注意力的角度分析最近的一些发展,以及相应的改进方案。

作者简介

蒋正锴,中科院自动化所模式识别国家重点实验室在读二年级硕士,本科毕业于东北大学自动化专业,发表AAAI 论文一篇,ECCV 2018实例分割第三名成员(第四作者)。目前的研究兴趣在图像视频的检测分割。

Introduction

自注意力机制 (self-attention)[1] 在序列模型中取得了很大的进步;另外一方面,上下文信息(context information)对于很多视觉任务都很关键,如语义分割,目标检测。自注意力机制通过(key, query, value)的三元组提供了一种有效的捕捉全局上下文信息的建模方式。接下来首先介绍几篇相应的工作,然后分析相应的优缺点以及改进方向。

RelatedWorks

Attention is all you need [1] 是第一篇提出在序列模型中利用自注意力机制取代循环神经网络的工作,取得了很大的成功。其中一个重要的模块是缩放点积注意力模块(scaled dot-product attention)。文中提出(key,query, value)三元组捕捉长距离依赖的建模方式,如下图所示,key和query通过点乘的方式获得相应的注意力权重,最后把得到的权重和value做点乘得到最终的输出。

Non-localneural network [2] 继承了(key, query, value) 三元组的建模方式, 提出了一个高效的non-local 模块, 如下图所示。在Resnet网络中加入non-local模块后无论是目标检测还是实例分割,性能都有一个点以上的提升(mAP),这说明了上下文信息建模的重要性。

Danet [3]是来自中科院自动化的工作,其核心思想就是通过上下文信息来监督语义分割任务。作者采用两种方式的注意力形式,如下图所示,分别是spatial和 channel上,之后进行特征融合,最后接语义分割的head 网络。思路上来说很简单,也取得了很好的效果。

Ocnet[4]是来自微软亚洲研究所的工作。同样它采用(key, query, value)的三元组,通过捕捉全局的上下文信息来更好的监督语义分割任务。与Danet [3]不同的是它仅仅采用spatial上的信息。最后也取得了不错的结果。

DFF [5] 是来自微软亚洲研究所视觉计算组的工作。如下图所示,它通过光流来对视频不同帧之间的运动信息进行建模, 从而提出了一个十分优雅的视频检测框架DFF。其中一个很重要的操作是warp, 它实现了点到点之间的对齐。在此以后出现了很多关于视频检测的工作,如, FGFA[6],Towards High Performance [7]等,他们大部分都是基于warp这个特征对其操作。由于光流网络的不准确性以及需要和检测网络进行联合训练,这说明现在视频检测中的光流计算其实不准确的。如何进行更好的建模来代替warp操作,并且起到同样的特征对其的作用是很关键的。通常而言我们假设flow运动的信息不会太远,这容易启发我们想到通过每个点的邻域去找相应的运动后的特征点,具体做法先不介绍了,欢迎大家思考(相关操作和自注意力机制)。

前面主要是简单的介绍了自注意力机制的用途,接下来分析它的缺点和相应的改进策略,由于每一个点都要捕捉全局的上下文信息,这就导致了自注意力机制模块会有很大的计算复杂度和显存容量。如果我们能知道一些先验信息,比如上述的特征对其通常是一定的邻域内,我们可以通过限制在一定的邻域内来做。另外还有如何进行高效的稀疏化,以及和图卷积的联系,这些都是很开放的问题,欢迎大家积极思考。

接下来介绍其他的一些改进策略,Senet[9] 启发我们channel上的信息很重要,如下图所示。

CBAW [10] 提出了结合spatial和channel的模块,如下图所示,在各项任务上也取得很好的效果。

最后介绍一篇来自百度IDL的结合channel as spatial的建模方式的工作 [11]。本质上是直接在(key, query, value)三元组进行reshape的时候把channel的信息加进去,但是这带来一个很重要的问题就是计算复杂度大大增加。我们知道分组卷积是一种有效的降低参数量的方案,这里也采用分组的方式。但是即使采用分组任然不能从根本上解决计算复杂度和参数量大的问题,作者很巧妙的利用泰勒级数展开后调整计算key, query, value的顺序,有效的降低了相应的计算复杂度。下表是优化后的计算量和复杂度分析,下图是CGNL模块的整体框架。

通过和non-local[2]模块的对比,如下表所示,在视频分类任务上取得了很好的效果, 也说明了channel维信息的重要性。

TakeHome Message

自注意力机制作为一个有效的对上下文进行建模的方式,在很多视觉任务上都取得了不错的效果。同时,这种建模方式的缺点也是显而易见的,一是没有考虑channel上信息,二是计算复杂度仍然很大。相应的改进策,一方面是如何进行spatial和channel上信息的有效结合,另外一方面是如何进行捕捉信息的稀疏化,关于稀疏的好处是可以更加鲁棒的同时保持着更小的计算量和显存。最后,图卷积作为最近几年很火热的研究方向,如何联系自注意力机制和图卷积,以及自注意力机制的更加深层的理解都是未来的很重要的方向。

Reference

[1]Ashish Vaswani et al. Attention Is AllYou Need. In NIPS, 2017

[2] Xiaolong Wang et al. Non-local Neural Networks. In CVPR, 2018

[3] JunFu et al. Dual Attention Network for Scene Segmentation. In arxiv, 1809.02983

[4]Yuhui Yuan et al. OCNet: Object Context Network for Scene Parsing. In arxiv,1809.00916

[5]Xizhou Zhu et al. Deep Feature Flow for Video Recognition. In CVPR 2017

[7]Xizhou Zhu et al. Towards High Performance for Video Object Detection. In CVPR2018

[8]Zhengkai Jiang et al. Video Object Detection with Locally-Weighted DeformableNeighbors. In AAAI 2019

[9] JieHu et al. Squeeze-and-Excitation Networks. In CVPR2018

[10]Sanghyun Woo et al. CBAM: Convolution Block Attention Module. In ECCV 2018

[11]Kaiyu Yue et al. Compact Generalized Non-local Network. In NIPS 2018

THE END
0.Win环境下刻录Ubuntu系统盘balenaEtcheriso文件上传成功 5)选择U盘 选择格式化好的U盘 6)刻录,约2min完成 Finish Flashing Validation 7)刻录完成,在计算机管理-->磁盘管理中可以看到 磁盘管理 在未分配区域,右键新建卷,下一步,下一步,下一步,然后这个U盘就可以恢复成一个U盘存储数据使用了 U盘jvzquC41yy}/lrfpuj{/exr1r1gg:?:786g4;?
1.小黑计算机官方安卓版下载小黑计算机最新安卓版下载3. 小黑计算机还提供了个性化的学习规划和优化辅导,根据用户的学习进度和需求,提供定制化的学习方案。 软件攻略 1. 用户可以先通过视频课程学习计算机基础知识,掌握核心概念和方法。 2. 在学习过程中,可以结合刷题功能进行练习,巩固所学内容。 3. 定期参加模拟考试,检验自己的学习成果,并根据考试结果进行有针对性的复jvzquC41yy}/e{xm{0ipo8xqhv575:;630nuou
2.在那段堕落的岁月里,我终于明白了什么是计算机到这里为止,计算机在我面前还是一团迷雾. 真正解开这团迷雾,要从一次简单的维修事件说起. 在师范读书的时候,和我一起研究电脑的人也有好几个,而本班同学,最主要的就是石飞云和周海亮.在周海亮找我之前,我自己是从不对计算机硬件动手的.那一次,亮哥(周海亮)让我陪他去给一个亲戚换硬盘.我在旁边看着,啥都不懂jvzquC41dnuh0lxfp0tfv8xwrgx`cmrk1cxuklqg1fkucrqu18618=86
3.计算机实习总结[5篇]十分感谢青岛xxxx计算机公司,感谢技术服务部给我这样一个宝贵的实习机会,在我完成这个计算机实习的同时,也让我对社会、对工作、对学习都有了更深一步的理解和认识,为我即将走上工作岗位增添了信心,让我在大学生活中留下了美好一页! 在不断的成长中,我相信我可以做的更好,只是时间的关系,我还没有得到更多的经历jvzquC41yy}/7:yguv4og}4ujq}039=64;760qyon
4.关于我的计算机入门和未来发展规划大数据管理与应用知乎想先讲一下我所了解的语言各自的特点 以上是22,23年各个语言的使用排行 Python是一种面向对象、解释型、动态类型计算机程序设计语言。是一种简单易学的工具语言,因其学习门槛低,运用编写方便简洁,能运用于各个领域,不但可以用于在生活中编一些辅助自己学习工作的小工具,更能在我们心血来潮时编一些有趣的小游戏,更jvzquC41dnuh0lxfp0tfv87525e8;<7;:570c{ykenk0fnyckny03<893;97:
5.在我的世界打造一台计算机有多难?复旦大神花了一年创事记下图就是除法,因为打了反除号(\) ,所以被除数在右边。左下是商,右下是余数。 空间限制了算力,所以计算器要有溢出判断,超过±32627的范围就会报错,显示“E”。 不论是输入的数还是计算结果,超出范围都会报错: 除以“0”,也会报错。 注意,计算机用二进制来计算,算好之后还要从二进制转成十进制,才是最终的答案jvzquC41vgii0|npc0ipo7hp1eyk1;53;/66/:>1fqi.kq{jkg}t4B9928?/uqyon
6.科学计算器要时通过“取存”键调出来再与其他计算结果进行运算。除了基础版外,还提供高级版的计算器,加入了圆周率、正弦、余弦、正切、对数等计算功能,力求满足广大网友的需要。 计算器在线使用 在线计算器使用 计算器在线计算 在线计算器 在线计算机 计算机在线计算 jvzquC41yy}/|ous0tfv8
7.上网需要在计算机上安装什么软件常见问题上网需要在计算机上安装“浏览器”软件。浏览器是指计算机系统中用来检索、展示以及传递Web信息资源的应用程序,是用户上网必备的工具。 本教程操作环境:windows7系统、360安全浏览器12.2、Dell G3电脑 上网需要在计算机上安装“浏览器”软件。 浏览器是用来检索、展示以及传递Web信息资源的应用程序。Web信息资源由统一资源jvzquC41yy}/rqu0ep5gcz469:<2:7mvon
8.计算机如何在官网下载驱动和电脑管家荣耀官网下载计算机驱动,具体方法如下: 方法一:1.    打开链接:https://www.honor.com/cn/support/downloads/(或:进入“荣耀官网”——点击网站上方右侧“服务支持”——点击“笔记本”——点击“驱动下载”)2. &njvzquC41yy}/jrmqpqx/exr1ep5twyuqtv5dqwygpv5{j6hp37>28:641
9.在MS在 MS-DOS 模式下重新启动计算机时,Windows 通常会重新启用 USB 旧版支持,除非 USB 主控制器资源已从启动期间分配的值中更改。操作系统无法还原 BIOS 指定的资源设置。 如果当前输入/输出(i/o)端口设置与 BIOS 设置不同,则设备可能无法访问,并且计算机可能会停止响应(挂起)。 有多种方法可用于解jvzquC41uwvqq{y0okisq|thv0ipo8j/et0jnqr1571;;81hghswjw{/36.4967/e{nwufvkxk.wyicvg3gq{2ujcxfrxnpv/yftjt/46256pd4;81:9
10.希捷移动硬盘在电脑上显示不出来怎么办?这四个方法好!希捷移动硬盘是一种比较流行的便携式存储设备,性能良好,在计算机用户中享有较好的声誉。您可以使用希捷移动硬盘备份或存储重要数据,或者在克隆过程中将其作为内部磁盘的目标硬盘。在大多数情况下,您可以从Windows文件资源管理器中正常访问希捷移动硬盘,但是有些时候,您可能会遇到希捷移动硬盘不显示在我的电脑中的问题。 jvzquC41yy}/frxmvqum0ls1eqtugwy/egtug{4ugcmbvn2gzvkspjq/jcxe/mwkxg3oq}2ujq}jpp2wr/oo/v~/eqsqw}jt/8<70qyon
11.在哪可以找到计算机操作记录?怎么查看计算机的使用记录?计算机在工作过程中会产生各种各样的临时文件和历史记录,近期使用的程序、文件、计算机开关机记录等,都是有迹可循的,假若用户急于寻找最近使用过的文件可以阅读下文了解查看计算机操作记录的方法。 一、怎么查看电脑历史操作记录? 1、看计算机在哪天运行过~运行了多久! jvzquC41i0vdqwqkpg4dqv3ep1~039=613696@=280nuou
12.CPEC2021会议在长春隆重召开第五届中国计算机实践教育学术会议暨第十四届全国高等学校计算机实践教学论坛(CPEC2021)于2021年9月25日—26日在吉林省长春市隆重召开。本次会议由教育部高等学校计算机类专业教学指导委员会、国家级实验教学示范中心联席会计算机学科组和《计算机教育》杂志社共同主办,jvzq<84eeuz/luz0gf{/ew4kphu039>413:7;A3jvo
13.大数据背景下计算机技术在茶文化信息传播的应用研究尤其在大数据背景下,计算机技术被大量使用到文化或者信息传播环节中去,其目的就是可以提升传播效应。因此茶文化信息传播的过程中, 下载App查看全文 下载全文 更多同类文献 个人查重>> 个人AIGC检测>> 文献综述>> (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询) CAJViewer阅读器支持CAJ、PDF文件jvzquC41yy}/ewpk0eun0ls1Ctzjeuj1ELLEVxycn/LKEJ72436629>0jvs
14.2016年9月计算机等级《二级公共基础知识》选择题题库2016年9月计算机等级《二级公共基础知识》选择题题库 为了帮助各位考生提高计算机二级考试成绩,攻克个人考试难点,今天小编为大家整理了以下计算机二级考试习题,希望对大家有帮助! 1、下列叙述中正确的是 A.一个算法的空间复杂度大,则其时间复杂度也必定大 B.一个算法的空间复杂度大,则其时间复杂度必定小 C.一个jvzquC41yy}/qq6220ipo8pcqunj1whtg45uktz14;<37B3jvor
15.comtool串口工具教学comtool是一种串口工具,用于在计算机和串口设备之间进行通信。下面是关于如何操作comtool的简要教程。 首先,下载并安装comtool软件。在官方网站上可以找到该软件的最新版本。安装过程通常很简单,按照提示一步一步进行即可。 安装完成后,打开comtool软件。在软件界面中,可以看到串口相关的设置参数,如波特率、数据位、停止jvzquC41ygtlw7hufp4og}4cpu}ft8;v;zhjow=m
16.网吧的电脑可以下载东西吗?(软件,游戏什么的)建议您先进行杀毒扫描和系统清理等维护工作,以确保计算机处于一个干净且安全的状态下。jvzquC41cuq/|xq0eqs/ew4z14;47B8230nuou
17.下一篇:如何设置3dmax的虚拟内存?输入后一点要记得点一下设置。然后点确定,如图: ,然后系统会提示设置要计算机重启后才能生效,你可以马上重启也可以等以后重启。 6、以上就是设置虚拟内存的步骤。jvzquC41|k~vg78f884dqv4ctvodnn4fgvgjn|d:84640qyon
18.下半年看好这些投资机会招商基金年中投资策略会精华观点值得一读创新升级我个人更加关注的还是它对硬件拉动的确定性,AIGC带来的想象空间确实是非常大,无论是在计算机各行业的深度应用,还是在传媒领域的拓展,我觉得它的应用空间是非常广的,目前来看产业链已经有所反馈,我相信进入下半年到明年,整个趋势会越来越确定,近期的回调反而是风险的释放,或许也是潜在机会的聚集。jvzquC41hktbplj0gcyuoxsg{0ipo8f142842@6549=:8:;4:74ivvq
19.【喜报】信通学院周军教授团队在计算机体系结构领域顶会HPCA发表近日,信息与通信工程学院周军教授团队在计算机体系结构领域顶级会议International Symposium on High-Performance Computer Architecture (HPCA) 2024上宣读了团队在类脑计算芯片方向的研究工作“STELLAR: Energy-Efficient and Low-Latency SNN Algorithm and HardjvzquC41yy}/urhg0wktvl3gfw4dp8nphq523<;135=977mvo
20.信息安全知识竞赛试题(111).木马程序一般是指潜藏在用户电脑中带有恶意性质的 A ,利用它可以在用户不知情的情况下窃取用户联网电脑上的重要数据信息。 A 远程控制软件 B 计算机操作系统 C 木头做的马 (112) .为了防止各种各样的病毒对计算机系统造成危害,可以在计算机上安装防病毒软件,并注意及时 B ,以保证能防止和查杀新近出现的jvzquC41yy}/l|xe0gjv0ls1pgzdgwygt1eu3@81427419;271i2;>f462>31yfig0vtr
21.中国计算机技术职业资格网根据《计算机技术与软件专业技术资格(水平)考试实施办法》(国人部发〔2003〕39号)规定,计算机软件资格考试原则上每年组织两次,在每年第二季度和第四季度举行。考试计划由人社部、工信部批准后对外公布。 想咨询一下工信部有哪些认证的资格证书可以考? 根据国家职业资格目录(2021年版),工信部和人社部共同组织实施通信专业jvzquC41yy}/t~fpmcu/q{l0ep5
22.全国计算机技术与软件专业技术资格(水平)考试全国计算机技术与软件专业技术资格(水平)考试网上报名平台 向下滚动更多 机构名称 报名有效时间 准考证打印时间 入口 北京 2025-09-05 00:00 ~ 2025-09-11 23:59 2025-11-04 10:00 ~ 2025-11-09 14:05 进入 天津 2025-08-25 09:00 ~ 2025-09-05 17:00jvzquC41do4swjsmcq4ptp3ep1yjiw4ygnipon
23.网络人(Netman)远程电脑监控软件官方下载远程控制软件的主要用途包括远程访问计算机桌面、屏幕共享、文件传输和编辑、远程办公、远程技术支持和隐私保护。利用远程控制软件,用户可以实时查看和控制远程计算机的屏幕,执行屏幕共享和文件操作,并在不亲自到场的情况下解决计算机问题或进行产品演示。下面就为大家推荐一些好用的远程控制软件。 网络人远程控制软件企业版vjvzquC41uqlu0
24.电脑重装系统后提示无法验证数字签名解决教程进入后将系统盘下windows/system32/divers/LDrvpro64.sys文件删除重启电脑完事. 这个是驱动软件的系统文件 想要完全删除需要在计算机管理-服务中把Local Driver Service服务禁用 以上就是小编为大家带来的电脑重装系统后提示无法验证数字签名解决教程。在电脑重装系统时无法验证数字签名,可以通过设置bios进行修复,之后重启就可jvzquC41yy}/zrfqzkuoinvqpm/exr1ykt81;:;50nuou