导航:首页 > 网络问题 > ca注意力怎么加到分割网络中

ca注意力怎么加到分割网络中

发布时间:2023-03-17 15:27:46

㈠ 求高手举例说明傅里叶变换在实际中怎么联系

您对于傅里叶变换恐怕并不十分理解

傅里叶变换的实质是将一个信号分离为无穷多多正弦/复指数信号的加成,也就是说,把信号变成正弦信号相加的形式——既然是无穷多个信号相加,那对于非周期信号来说,每个信号的加权应该都是零——但有密度上的差别,你可以对比概率陆告论中的概率密度来思考一下——落到每一个点的概率都是无限小,但这些无限小是有差别的

所以,傅里叶变换之后,横坐标即为分离出的正弦信号的频率,纵坐标对应的是加权密度

对于周期信号来说,因为确实可以提取出某些频率的正弦波成分,所以其加权不为零——在幅度谱上,表现为无限大——但这些无限大显然是有区别的,所以我们用冲激函数表示

已经说过,傅里叶变早颂明换是把各种形式的信号用正弦信号表示,因此非正弦信号进行傅里叶变换,会得到与原信号频率不同的成分——都是原信号频率的整数倍。这些高频信号是用来修饰频率与原信号相同的正弦信号,使之趋近于原信号的。所以说,频谱上频率最低的一个峰(往往是幅度上最高的),就是原信号频率。

傅里叶变换把信号由时域转为频域,因此把不同频率的信号在时域上拼接起来进行傅里叶变换是没有意义的——实际情况下,我们隔一段时间采集一次信号进行变换,才能体现出信号在频域上随时间的变化。

我的语言可樱唯能比较晦涩,但我已尽我所能向你讲述我的一点理解——真心希望能对你有用。我已经很久没在知道上回答过问题了,之所以回答这个问题,是因为我本人在学习傅里叶变换及拉普拉斯变换的过程中着实受益匪浅——它们几乎改变了我对世界的认识。傅里叶变换值得你用心去理解——哪怕苦苦思索几个月也是值得的——我当初也想过:只要会算题就行。但浙大校训“求是”时时刻刻鞭策着我追求对理论的理解——最终经过很痛苦的一番思索才恍然大悟。建议你看一下我们信号与系统课程的教材:化学工业出版社的《信号与系统》,会有所帮助。

㈡ 在网络中起到分割网络的设备是什么,为什么

1.中继器 (Repeater)
物理层(第一层)
功能: 信号在传输介质中传输会由于距离大而导致信号减弱失真,中继器起放大信号作用,以便加长传输距离.
2.集线器(Hub)
物理层
功能:提供多网络借口,总线共享,并兼具中继器的所有功能,每个端口平均传输数据量.
3.网桥(Bridge)
数据链路层
功能:主要作用是用来分割冲突域,减少网内的广播流量。通常在早期的一些大网络中,当HUB数量过多,冲突域过大,就会造成广播风暴,这时在网络中间适当的放置网桥就能够分割冲突域,减少广播风暴的可能。
4.交换机(Switch)
数据链路层
功能:
主要作用是用来分割冲突域,减少网内的广播流量。通常在早期的一些大网络中,当HUB数量过多,冲突域过大,就会造成广播风暴,这时在网络中间适当的放置网桥就能够分割冲突域,减少广播风暴的可能。
交换机(SWITCH)。理论上来理解它就是一台多端口的网桥。分为直通式交换机、存储转发式交换机和碎片隔离式交换机。是利用物理地址或者说MAC地址来确定转发数据的目的地址。交换机的工作特性,即:交换机的所有端口共享一个广播域,交换机的每个端口是一个冲突域。交换机不懂得IP地址,但它可以“学习”MAC地址,并把其存放在内部地址表中,通过在数据帧的始发者和目标接收者之间建立临时的交换路径,使数据帧直接由源地址到达目的地址。
5.路由器(Router)
网络层
功能:具有连接不同类型网络的能力并能够选择数据传送路径的网络设备。能作出决定为网络上的数据分组选择最佳传递路径,因为它根据网络地址转发数据。换句话说,与交换机或网桥不同,路由器知道应向哪里发送数据。

6.网关(Gateway)
功能:又称网间连接器、协议转换器。网关在传输层上以实现网络互连,是最复杂的网络互连设备,仅用于两个高层协议不同的网络互连。网关的结构也和路由器类似,不同的是互连层。网关既可以用于广域网互连,也可以用于局域网互连。 网关实质上是一个网络通向其他网络的IP地址。

㈢ 计算机视觉中的注意力机制研究

写在前面的话:本文来自于本人的一次课程作业综述,当时还是写了很久的,不想交上去就完了,所以发上来留个纪念。

将注意力机制用在计算机视觉任务上,可以有效捕捉图片中有用的区域,从而提升整体网络性能。计算机视觉领域的注意力机制主要分为两类:(1) self-attention;(2) scale attention。这两类注意力从不同的角度进行图片内容理。本文将分别就这两种注意力机制进行说明,并仔渣列举相关的文献。

注意力是人类大脑固有的一种信号处理机制。人类大脑通过快速从视觉信号中选择出需要重点关注的区域,也就是通常所说的注意力焦点,然后重点处理这些区域的细节信息。通过注意力机制可以利用有限的大脑资源从大量的信息中筛选出有价值的信息。注意力机制最初被用在深度学习任务上是在机器语言翻译领域,将源语言翻译成目标语言,目标语言中的词并非与源语言的所有词都同等相关,而是仅与特定的几个词有相关性。因此,注意力机制可以将这个词的注意力分配到这些最相关的词上。之后,[1]中提出自注意力机制 (self-attention),并将其用于Transformer模块中,极大提升了翻译模型的精度和并行性。与传统的注意力机制不同,self-attention的查询(query)和键(key)属于同一个域,计算的是同一条语句(或同一张图片)中不同位置之间的注意力分配,念和悄从而提取该语句(或图片)的特征。
[2]首先将self-attention用于视觉任务中,提出了non-local network,来捕获图片(或视频)中的长程依赖(long-range dependency)。Self-attention机制在视觉任务,如语义分割[3],生成对抗网络[4]中取得了巨大的成功。它解决了卷积神经网络的局部视野域问题,使得每个位置都可以获得全局的视野域。不过,由于在视觉任务中,像素数极多,利用所有位置来计算每个位置的attention会导致巨大的计算和显存开销;另一方面,由于self-attention简单将图像当成一个序列进行处理,没有考虑不同位置之间的相对位置关系,使得所得到的attention丧失了图像的结构信息。之后对于self-attention的一个改进方向就是,在self-attention中加入相对位置信息或绝对位置信息编码。
除了self-attention,视觉任务中另一类注意力机制为scale attention。与self-attention不同,scale attention基于每个位置本身的响应。就分类任务而言,每个位置的响应越大,则其对于最终的分类结果影响越大,那么这个位置本身的重要性就越强。根据响应大小有选择地对特征图进行强化或抑制,就可以在空间(或其他维度)上达到分配attention的目的。[5]所提棚滑出的SENet,就相当于channel-wise的attention。类似的还有GENet[6],CBAM[7]等,GENet将SENet中的channel-wise attention扩展到了spatial上,CBAM设计了串行的两个模块,分别进行channel-wise attention和spatial-wise attention的计算。另一篇工作resial attention network[8]也属于这一类attention,与SENet系列不同之处在于,本文采用bottom-up top-down形式得到spatial attention,再将其以残差的形式作用回原来的特征。这一类注意力机制仅仅基于图像中每个位置本身,对显着区域进行增强,非显着区域进行抑制,比self-attention机制更接近与人类视觉系统的注意力机制。

普通卷积将特征图的每个位置作为中心点,对该位置及其周围的位置进行加权求和,得到新的特征图上该位置对应的滤波结果,对于边缘,必要时可以用0进行填充。这一操作可以有效提取图片的局部信息。随着网络加深,卷积层不断堆叠,每个位置的视野域也越来越大,网络提取到的特征也逐渐由一些low-level的特征,如颜色、纹理,转变到一些high-level的结构信息。但是,简单通过加深网络来获取全局视野域,所带来的计算开销是很大的,并且,更深的网络会带来更大的优化难度。
Self-attention操作[2]可以有效地捕获不同位置之间的long-range dependency,每个位置的特征都由所有位置的加权求和得到,这里的权重就是attention weight。由此,每个位置都可以获取全局的视野域,并且不会造成特征图的退化(分辨率降低),这对于一些密集的预测任务,如语义分割、目标检测等,具有很大的优势。
图1展示了self-attention的网络结构。给定输入X,将两个1x1卷积分别作用于X上,得到的两个特征利用f(⋅)得到相关性矩阵,图中展示的f(⋅)为矩阵乘法。最后将相关性矩阵作用在原特征经过1x1卷积变换后的特征上。

公式(1)展示了第i个位置的相应的计算方法,其中f(⋅)为相关性函数,g(⋅)为变换函数,x_i为输入第i个位置的特征,y_i为第i个位置的输出特征,C(x)为归一化因子,一般采用总位置的个数。

由于self-attention可以有效捕获图片(或视频)中的长距离依赖,从而在不影响特征分辨率的同时获取全局的视野域,在视觉任务上引入self-attention,可以带来较大的性能提升。
论文[2]将self-attention用在视频动作识别任务上,如图2,对于视频中动作的识别,可能会跨越多帧,需要建立多帧视频之间的联系,self-attention的这种长距离依赖的特征就能有效建立多帧不同位置之间的联系。

论文[2]将self-attention用在分割任务上。由于孤立预测每个位置的类别很容易导致分错,分割任务需要结合每个位置的上下文对该位置进行分类。文章定义了所谓物体上下文(object context),即每个位置所属于的类别构成的集合,即为这个位置所属于的object context。 Object context是由不同位置的特征相似度来定义的,也就是self-attention过程中的相似度矩阵,将相似度矩阵与原特征进行相乘,即可将object context作用于该特征图。由此,文章提出了Object Context Network(OCNet),如图3。其中,base-OC为基本的self-attention模块,pyramid-OC和ASP-OC分别将self-attention与PSP模块和ASPP模块结合,在提取object context的同时,利用不同倍率的pooling操作或不同ratio的dilated convolution获取多尺度的特征,最大程度的利用context信息对原图进行分割。不过,本文虽然提出object context为每个像素及所有其他与其属于同一类的像素构成的集合,在实际操作的时候却并不是这样计算每个位置的object context的,特征上的相似性并不一定代表属于同一位置。因此,用object context来给self-attention新的解释,在说服力上还是存在一定问题的。

Scale attention是另一种注意力机制,与self-attention不同,scale attention是只基于key context的,对图像中的显着性区域进行增强,其他区域相应的进行抑制,从而使得输出的特征具有更强的区分性。这一类注意力机制的代表工作包括,resial attention network[8],squeeze-and-excite network[5],gather-and-excite network[6]以及CBAM[7]。

[8]提出,在分类网络中,网络深层比浅层更关注于被分类的物体,也就是图片的主体内容,这是因为,深层网络具有更大的视野域,可以看到更广的范围;而浅层网络只能看到每个位置及其邻域。因此,如果将网络较深层的信息作为一种mask,作用在较浅层的特征上,就能更好的增强浅层特征中对于最终分类结果有帮助的特征,抑制不相关的特征。如图5所示,将attention作为mask作用在原来特征上,得到的输出就会更加集中在对分类有帮助的区域上。

因此,文章提出一种bottom-up top-down的前向传播方法来得到图片的attention map,并且将其作用在原来的特征上,使得输出的特征有更强的区分度。图6展示了这种attention的计算方式。由于更大的视野域可以看到更多的内容,从而获得更多的attention信息,因此,作者设计了一条支路,通过快速下采样和上采样来提前获得更大的视野域,将输出的特征进行归一化后作用在原有的特征上,将作用后的特征以残差的形式加到原来的特征上,就完成了一次对原有特征的注意力增强。文章还提出了一个堆叠的网络结构,即resial attention network,中间多次采用这种attention模块进行快速下采样和上采样。
这篇文章在视觉领域开前向传播的注意力机制的先河,之后的注意力机制都是采用这种前向传播过程中得到的attention进行增强,并且一般为了优化方便,都会以残差的方式进行。

Squeeze-and-excite是另一类scale attention。与resial attention不同,squeeze-and-excite通过global pooling来获得全局的视野域,并将其作为一种指导的信息,也就是attention信息,作用到原来的特征上。
[5]提出了squeeze-and-excite network(SENet),提出了channel-wise的scale attention。特征图的每个通道对应一种滤波器的滤波结果,即图片的某种特定模式的特征。对于最终的分类结果,这些模式的重要性是不同的,有些模式更重要,因此其全局的响应更大;有些模式不相关,其全局的响应较小。通过对不同通道的特征根据其全局响应值,进行响应的增强或抑制,就可以起到在channel上进行注意力分配的作用。其网络结构如图7所示,首先对输入特征进行global pooling,即为squeeze阶段,对得到的特征进行线性变换,即为excite阶段,最后将变换后的向量通过广播,乘到原来的特征图上,就完成了对不同通道的增强或抑制。SENet在2017年的ImageNet2017的分类比赛上获得了冠军,比之前的工作有了较大的性能提升。

[6]进一步探索了squeeze-and-excite在更细的粒度上的表现,提出了gather-excite操作。SENet将每个通道的特征图通过global pooling得到一个值,本文采用了不同步长的pooling(2x,4x,8x,global),然后利用上采样将pooling后的特征插值恢复到原来大小,最后作用在原来特征图上,具体操作如图8所示。不过,实验结果显示,global pooling的性能最好,将特征区间划分得更细致虽然增加了参数,但是反而会带来性能的下降。

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7794-7803.
[3] Yuan Y, Wang J. Ocnet: Object context network for scene parsing[J]. arXiv preprint arXiv:1809.00916, 2018.
[4] Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. arXiv preprint arXiv:1805.08318, 2018.
[5] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.
[6] Hu J, Shen L, Albanie S, et al. Gather-Excite: Exploiting feature context in convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2018: 9401-9411.
[7] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention mole[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.
[8] Wang F, Jiang M, Qian C, et al. Resial attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3156-3164.

㈣ CA:用于移动端的高效坐标注意力机制 | CVPR 2021

论文: Coordinate Attention for Efficient Mobile Network Design

 目前,轻量级网络的注意力机制大都采用SE模块,仅考虑了通道间的信息,忽略了位置信息。尽管后来的BAM和CBAM尝试在降低通道数后通过卷积来提取位置注意力信息,但卷积只能提取局部关系,缺乏长距离关系提取的能力。为此,论文提出了新的高效注意力机制coordinate attention,能够将横向和纵向的位置信息编码到channel attention中,使得移动网络能够关注大范围的位置信息又不会带来过多的计算量。
 coordinate attention的优势主要有以下几点:

 Coordinate Attention可看作增强移动网络特征表达能力的计算单元培芦,接受中间特征 作为输入,输出与 大小相同的增强特征 。

 Coordinate Attention基于coordinate information embedding和coordinate attention generation两个步骤来编码通道关系和长距离关系。

 channel attention常用全局池化编码全局空间信息,将全局信息压缩成一个标量,难以保留重要的空间信息。为此,论文将全局池化改造成两个1维向量的编码操作。对于输入 ,使用池化核 和 来编码水平方向和垂直方向特征,即第 维特征的输出为:

 上面的公式从不同的方向集成特征,输出一对方向可知的特征图。对比全局缺中游池化的压缩方式,这样能够允许attention block捕捉单方向上的长距离关系同时保留另一个方向上的空间信息,帮助网络更准确地定位目标。

 为了更好地利用上述的coordinate infomation,论文提出了配套的coordinate attention generation操作,主要基于以下三点准则进行设计:

 首先将公式4和公式5的输出concatenate起来,使用 卷积、BN和非线性激活进行特征转化:

  为包含横向和纵向空间信息的中间特征, 为缩减因子。这里两个方向的特征没有做激烈的融合,concatenate的主要目的我觉得是进行统一的BN操作。随后将 分为两个独立的特征 和 ,使用另外两个 卷积和sigmoid函数进行特征转化,使其维度与输入 一致:

 将输出 和 合并成权重矩阵,用于计算coordinate attention block输出:

 coordinate attention block与se block的最大区别是,coordinate attention block的每个权重都包含了通道间信息、横向空间信息和纵向空间信息,能够帮助网络伏销更准确地定位目标信息,增强识别能力。

 将coordinate attention block应用于MobileNetV2和MobileNeXt上,block结构如图3所示。

 基于MobileNetV2进行模块设置的对比实验。

 不同注意力结构在不同主干网络上的性能对比。

 对目标检测网络的性能对比。

 对语义分割任务的性能对比。

 论文提出新颖的轻量级通道注意力机制coordinate attention,能够同时考虑通道间关系以及长距离的位置信息。通过实验发现,coordinate attention可有效地提升模型的准确率,而且仅带来少量的计算消耗,十分不错。



㈤ 注意力机制加在什么位置

注意力机制可以加在编码层和解码层之间,甚至可以加在Auto-Encoder里面。

此外,深度残差收缩网络是一种特殊的注意力机制算法,实现了注意力机制下的软阈值化;把注意力机制嵌入到了残差模块里面。

视觉注意力机制:

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。

这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。

㈥ 用于语义分割的分层多尺度注意力

https://arxiv.org/abs/2005.10821

https://github.com/NVIDIA/semantic-segmentation

1.5k星

21 May 2020

最近开源了: https://paperswithcode.com/paper/hierarchical-multi-scale-attention-for#code

摘要: 多尺度推理常用于改善语义分割结果。将图像缩放到多个不同尺度,再输入给同一个网络,再将结果取平均或最大池化。本文提出一个基于注意力的方法来组合多尺度预测。我们表明,某些尺度下的预测更能处理特定的故障情况,而网络学会了在这种特定情况下更倾向于这些尺度,以便输出更好的结果。我们的注意力机制是分层的,这使得它的内存效率比其他最近的方法快4倍。这样除了能够训练地更快以外,还能让我们使用更大的裁剪尺寸训练,从而使得模型准确度更高帆简。我们在Cityscapes和Mapillary Vistas两个数据集上验证我们的方法。对于具有大量弱标注图像的Cityscapes数据集,我们还利用自动标注改进泛化能力。我们的方法在Cityscapes数据集(85.1 IOU test)和Mapillary Vistas数据集(61.1 IOU val)上都取得最先进水平。

关键词:语义分割、注意力、自动标注

1.引言     

语义分割的任务是给图像中所有像素打上多个类别中的一个的标签。该任务有个折中,腊轿册就是某些情况下的预测在低分辨率下推理得更好,而另一些情况下的预测在高分辨率下推理得更好。在放大的图像尺寸下,精细的细节,例如物体边缘或者细长的结构,会推理得更好。同时,缩小的图像尺寸下,对需要更多的全局上下文信息的大物体会推理得更好,因为网络的感受野可以观察到更多的必要的上下文信息。我们将后一种问题称为类别混淆(class confusion)。两种情况的例子如图1所示。

多尺度推理是这一问题的常见解决办法。图像缩放到多个不同尺度,再输入给同一个网络,再将结果取平均或最大池化。取平均来组合多个尺度的预测通常可提高结果,但存在将最佳预测和最差预测结合的问题。煮个栗子,对于某像素,最佳预测来自2×尺度,其0.5×尺度的预测要差很多,取平均的话会将这两者结合起来,得到一个次优的输出。另一方面,最大池化是选择该像素在多个尺度预测中的一个,而最优结果可能是多个尺度预测的加权组合。

为了解决这个问题,我们提出一种使用注意力机制来将某像素的多个尺度预测结合在一起的办法,类似于Chen[1]。我们提出一种层次化的注意力机制,学习预测相邻尺度之间的关系权重,由于它是层次化的,所以我们只需要增加一个额外的尺度的训练pipeline,而其它的方法,例如[1],则需要在训练阶轮宏段显示地增加每一个额外的推理尺度。例如,当多尺度推理为{0.5,1.0,2.0}时,其它的注意力方法要求网络在所有这些尺度上训练,导致额外的 倍的训练成本。我们的方法只需要再增加0.5×尺度的训练,导致增加 倍的训练成本。此外,我们提出的层次化机制还可使推理时具有选择额外的尺度的灵活性,而以往的方法在推理的时候只能使用训练时候的尺度。为了在Cityscapes上取得最先进水平,我们还使用了一种对粗标注图像的自动标注策略,以增加数据集中的方差,以提高泛化能力。我们的自标注方法是受一些最近的工作的启发,包括[2,3,4]。和典型的软标签不同,我们使用硬标注,这样标签存储内存就更小,可以降低磁盘IO成本,提高训练速度。

1.1 贡献

一种高效地层次化注意力机制,使网络可以学习如何最好地组合多个尺度的推理,能解决类别混淆和细节的问题。

一种基于硬-阈值的自动标注策略,利用未标记图像来提升IOU。

在Cityscapes数据集(85.1 IOU test)和Mapillary Vistas数据集(61.1 IOU val)上取得最先进水平。

2 相关工作

多尺度上下文     最先进的语义分割网络使用低输出步长的主干网络,这可以更好地分割细节,但是感受野也较小。小的感受野会导致网络难以预测大物体。金字塔池化可通过组合多个尺度的上下文来解决感受野较小的问题。PSPNet[5]使用一个空间金字塔池化模块,使用主干网络的最后一层的特征,用一些列卷积和池化来组合多个尺度的特征。DeepLab[6]使用Atrous Spatial Pyramid Pooling(ASPP),用不同扩张率的扩张卷积,以建立比PSPNet更加稠密的特征。最近ZigZagNet[7]和ACNet[8]使用中间层特征,而不仅仅是最后层特征,来创建多尺度上下文。

关系上下文     实际上金字塔池化关注的是固定的方形上下文区域,因为池化和扩张通常都是对称的。此外这些方法是固定的,不是可学习的。关系上下文通过关注像素之间的关系来构建上下文,而不是固定的方向区域。关系上下文的可学习特性使得上下文的构建可基于图像的各个分区。该方法能够对非正方形的物体区域构建更合适的上下文,例如长火车和细高的灯柱。OCRNet[9]、DANET[10]、CFNet[11]、OCNet[12]和其他相关工作[13,14,15,16,17,18,19,20]利用这些关系来构建更好的上下文。

多尺度推理     一些关系上下文和多尺度上下文方法都使用了多尺度推理来达到最好的结果,例如[21,22,23,9]。多尺度推理有两种常见方法:取平均和最大池化,取平均要更常见些。然而,取平均对不同尺度的输出是等权重的,这样的结果可能是次优的。为了解决这个问题,[1,24]使用注意力组合多个尺度。[1]使用网络的最后层特征来训练一个建模各个尺度间关系的注意力头。[24]组合不同层的特征来构建更好的上下文信息。然而,这两种方法有共同的确定,网络和注意力头是用一组固定尺度训练的,推理时只能使用这些尺度,否则网络要重新训练。我们提出一种层次化的注意力机制,它对推理时用多少个尺度是无关的。我们方法不仅比取平均的性能更好,而且,更进一步地,我们的方法可用于可视化、诊断不同尺度分别对不同物体类别和场景的重要性。此外,我们的方法和其它的注意力方法和金字塔池化方法是正交的,例如[22,25,26,9,27,10,28],因为这些方法使用单个尺度,并使用注意力来更好地组合不同层级的特征,以生成高分辨率的预测。

自动标注 很多在Cityscapes上的语义分割工作都使用了大约2w张的粗标注图像以达到最先进水平[12,29]。然而,由于标签是粗标注的,图像中相当一部分是未标记的。为了在Cityscapes上取得最先进水平,我们提出一种自动标注策略,我们的灵感是来自于NoisyStudent[2],以及其他语义分割半监督自训练方法[30,31,32,33,34],以及其他基于伪标注方法[4,35,36,3]。我们为Cityscapes的粗标注图像生成稠密标注。我们生成的标签只有很少的未标注区域,这样我们就能够充分利用粗标注数据的全部图像内容。

虽然大多数图像分类的自标注方法使用软标签,但为了提高存储效率和训练速度,我们用的是被阈值过的硬标签。软标签在语义分割中是指,教师网络为图像的每个像素上都提供分别属于每个类别的概率。而硬标签是用阈值从各个类别的概率中选出最大的。类似于[37,4],我们为Cityscapes粗标注图像生成稠密的硬标签。图4是一些例子。不同于NoisyStudent[2],我们对生成的伪标签不做迭代的调精。相反,我们使用默认的粗标注数据和精细标注数据,对教师模型进行一次完整的训练。在联合训练之后,对粗标注图像进行自动标注,在将这些自动标注数据替换我们教师模型用的粗标注数据,以获得最好的测试结果。使用我们的伪硬标注和层次化注意力,我们能获得在Cityscapes上的最先进水平。

3.层次多尺度注意力

我们的注意机制在概念上与[1](Attention to scale)非常相似,在[1]中,在每个尺度下都学习,得到dense mask,并通过在对mask执行像素级乘法,然后在不同尺度之间进行像素级求和,来组合这些多尺度预测,以获得最终结果,见图2。我们称陈的方法为 显式方法 。使用我们的 分层方法 ,我们学习相邻尺度之间的相对注意mask,而不是学习每个尺度的所有注意mask。在训练网络时,我们只使用相邻的尺度对(adjacent scale pairs)进行训练。如图2所示,给定一组来自单个(较低)尺度的图像特征,我们预测两个图像尺度之间的像素级的密集的相对注意力权重(dense pixel-wise the relative attention)。实际上,为了获得一对缩放图像,我们获取一个输入图像并将其缩小2倍,这样我们就剩下1倍缩放输入和0.5倍缩放输入,尽管可以选择任何缩小比率。需要注意的是,网络输入本身是原始训练图像的重新缩放版本(re-scaled version),因为我们在训练时使用图像缩放增强。这允许网络学习预测一个范围内(a range of)的图像尺度的相对注意力。在进行推理时,我们可以分层地应用所学的注意力,将N个预测尺度组合在一起,形成一个计算链,如图所示,并由下面的等式描述。我们优先考虑较低的尺度,并努力向更高的尺度发展,我们的想法是,它们有更多的全局上下文,可以选择哪些区域是需要通过更高尺度的预测来refine的。

更正式地,在训练期间,给定的输入图像缩放因子 ,r=0.5表示下采样两倍,r=2.0表示上采样2倍,r=1表示不进行操作。对于我们的训练,我们选择r=0.5和r=1.0。然后,r=1和r=0.5的两个图像通过一个共同的网络块(the shared network trunk),该网络块输出各个尺度下的semantic logits 和注意力掩码 ,该掩码 用来组合不同尺度下的logits 。因此,如果训练和推理都使用2个尺度的话,令 表示双线性上采样,∗ 和+分别为逐像素乘法和加法,公式可形式化为:

使用我们提出的方法有两个优势:

•    在推理时,我们现在可以灵活地选择不同的尺度,因此,通过我们提出的分层式注意力机制链,对于在0.5x和1.0x尺度下训练的模型,我们在推理时可以添加新的尺度例如如0.25x或2.0x。这不同于先前提出的方法,先前的方法训练时使用哪些尺度,在推理时就得用哪些尺度。

•    与显式方法相比,这种层次结构使我们能够提高训练效率。使用显式方法,如果使用0.5、1.0、2.0尺度,相对于单量表训练,训练成本为0.5^2+1.0^2+2.0^2=5.25。采用我们的分层方法,训练成本仅为0.5^2+1.02=1.25。

3.1    架构

主干: 对于本节中的消融研究,我们使用ResNet-50[38](配置为输出步幅8)作为我们网络的trunk。为了获得最先进的结果,我们使用了更大、功能更强大的主干HRNet OCR[9]。

语义头: 语义预测由一个专用的全卷积头执行,该卷积头包括(3x3 conv)→ (BN)→ (ReLU)→ (3x3卷积)→ (BN)→ (ReLU)→ (1x1 conv)。最后的卷积输出num_classes个通道。

注意头:

注意力预测是使用一个单独的头部来完成的,该头部在结构上与语义头部相同,除了最终的卷积输出,它输出一个通道。当使用ResNet-50作为主干时,语义头和注意头会收到ResNet-50最后阶段的特征。当使用HRNet OCR时,语义和注意头会收到OCR块中的特征。使用HRNet OCR的时候,还存在一个 辅助语义头 ,在OCR之前直接从HRNet主干获取其特征。该头部包括(1x1 conv)→ (BN)→ (ReLU)→ (1x1 conv)。在将注意力应用于语义logits之后,使用双线性上采样将预测上采样到目标图像大小。

3.2    分析

为了评估我们的多尺度注意力方法的有效性,我们使用DeepLab V3+架构和ResNet50主干训练网络。在表1中,我们表明,与基线平均法(49.4)或显式法(51.4)相比,我们的分层注意法具有更好的准确性(51.6)。我们还观察到,当添加0.25倍尺度时,我们的方法的结果明显更好。与显式方法不同,当使用额外的0.25倍尺度时,我们的方法不需要重新训练网络。这种 推理时的灵活性 是我们方法的一个主要优点。我们可以训练一次,但可以灵活地用不同的尺度进行评估。

此外,我们还观察到,对于基线平均多尺度方法,简单地添加0.25倍尺度对精度有害,因为它会导致IOU减少0.7,而对于我们的方法,添加额外的0.25倍尺度会将精度再提高0.6个IOU。使用基线平均法,0.25倍的预测是如此粗糙,以至于当与到其他尺度平均时,我们观察到诸如车道标记、人洞、电话亭、路灯、交通灯和交通标志(前后)、自行车架等类别下降1.5 IOU。预测的粗糙度损害了边缘和细节。然而,在我们提出的注意方法中,添加0.25倍的比例将我们的结果提高了0.6,因为我们的网络能够以最合适的方式应用0.25倍的预测,避免在边缘使用它。这方面的例子可以在图3中观察到,其中对于左侧图像中的fine posts,0.5x预测很少关注posts,但2.0x尺度中存在非常强的注意信号。相反,对于右侧非常大的区域,注意机制学习到最大程度地利用较低的尺度(0.5倍),很少利用错误的2.0倍预测。

3.2.1单尺度与双尺度特征

虽然我们确定的架构只从两个相邻图像尺度中较低的一个尺度的特征输入给注意力头(见图2),但我们也尝试用两个相邻尺度的特征训练注意力头。我们没有观察到准确度上的显着差异,所以我们选择了单个尺度的特征。

4.Cityscapes上的自动标注

受最近的在图像分类上任务上的自动标注工作[2,39]的启发,我们在Cityscapes数据集上使用自动标注来提升有效数据集的大小和标注的质量。Cityscapes有2w张粗标注图像和3500张精细标注图像。粗标注图像的标注非常一般,有大量像素是无标签的,如图4所示。通过我们的自动标注方法,我们可以提高标签质量,这反过来又有助于提升模型的IOU。

图像分类中常用的是软标签,或者称为连续标签。在语义分割中,软标签是为每一像素标上所属各个类别的概率,这样很占磁盘空间,训练速度会很慢,标签会占大约3.2TB的磁盘:20000×2048×1024×19×4B=3.2TB。训练期间读取这些标签会大大降低训练速度。

因此,我们用硬标签,即对每个像素,选择教师网络输出的最大类别概率。我们对教师网络输出的概率标签进行阈值化。超过阈值的概率视为标签,否则该像素被视为忽略类。实践中,我们使用0.9的阈值。

5    结果

5.1    实施协议

在本节中,我们将详细描述我们的实现协议。

训练详情

我们的模型在Nvidia DGX服务器上使用Pyrotch[40]进行训练,每个节点包含8个GPU,具有混合精度、分布式数据并行训练和同步批处理规范化。我们的优化器使用随机梯度下降(SGD),每GPU的批量大小为1,动量为0.9,重量衰减为5e−4.在训练中。我们采用“多项式”学习率策略[41]。在默认设置下,我们使用RMI[42]作为主要损失函数,并使用交叉熵作为辅助损失函数。对于城市景观,我们使用2.0的多指数,初始学习率为0.01,并在2个DGX节点上训练175个历元。对于Mapillary,我们使用1.0的多边形指数、0.02的初始学习率,并在4个DGX节点上训练200个历元。如[29]中所述,我们在数据加载器中使用类均匀采样,从每个类中平均采样,这有助于在数据分布不均匀时改进结果。

数据增强:

在训练过程中,我们对输入图像采用高斯模糊、颜色增强、随机水平翻转和随机缩放(0.5x-2.0x)来增强数据集。城市景观的裁剪尺寸为2048x1024,Mapillary Vistas为1856x1024。

5.1.1城市景观结果

Cityscapes[43]是一个大型数据集,在5000幅高分辨率图像上标记了19个语义类。对于城市景观,我们使用HRNet OCR作为主干,并提出了多尺度注意方法。我们使用RMI作为主分割头的损失,但对于辅助分割头,我们使用交叉熵,因为我们发现使用RMI损失会导致深入训练的训练精度降低。我们的最佳效果是首先在较大的Mapillary Vistas数据集上进行预训练,然后在城市景观上进行训练。对于Mapillary预训练任务,我们不会使用注意力机制进行训练。除了自动标记的粗略图像外,我们还使用train+val图像实现了最先进的城市景观配方。我们从train+val集合中用50%的概率采样,另外我们从自动标记的图像池中采样。在推断时,我们使用scales={0.5,1.0,2.0}和图像翻转。

我们对城市景观验证集进行了消融研究,如表2所示。多尺度注意力产生的IOU比基线HRNet OCR架构平均池高0.5%。自动标签比基线提高了1.1%的IOU。将这两种技术结合在一起可获得1.4%IOU的总增益。

最后,在表3中,我们展示了我们的方法与Cityscapes测试集中其他性能最好的方法相比的结果。我们的方法得分为85.1,这是所有方法中报告的最佳城市景观测试分数,比之前的最佳分数高0.6 IOU。此外,我们的方法在除三个类别外的所有类别中都拥有最高的每班分数。图5显示了一些结果。

5.1.2    Mapillary Vistas远景的结果

Mapillary Vistas[45]是一个大型数据集,包含25000个高分辨率图像,注释为66个对象类别。对于Mapillary,我们使用HRNet OCR作为主干,并提出了多尺度注意方法。因为Mapillary Vistas图像可以具有非常高且不同的分辨率,所以我们调整图像的大小,使长边为2177,如[23]中所述。我们使用在ImageNet分类上训练的HRNet的权重初始化模型的HRNet部分。由于Mapillary中66个类需要更大的内存,我们将裁剪大小减少到1856 x 1024。在表4中,我们展示了我们的方法在Mapillary验证集上的结果。我们单个模型达到61.1,比下一个最接近的方法Panopoptic Deeplab[23]高2.4,后者使用模型集成实现58.7。

6    结论

在这项工作中,我们提出了一种分层的多尺度注意语义分割方法。我们的方法在提高分割精度的同时,也提高了内存和计算效率,这两者都是实际问题。训练效率限制了研究的速度,而GPU内存效率限制了裁剪网络的训练尺度,这也限制了网络的准确性。我们的经验表明,使用我们提出的方法可以持续改善城市景观和Mapillary Vistas。

致谢:我们要感谢Sanja Fidler、Kevin Shih、Tommi Koivisto和Timo Roman的有益讨论。

㈦ 注意力分割~的英文怎么说

英语里面,你问的这几个表达不是一个意思,看看下面的哪个表达更合适你?

三心二意,应该是: absent-minded

分心,注意力分散,应该是:distracted, draw one's attention away from something.

同时进行不同事务的能力,应该是:multi-tasking skills, it means to handle two or more things at the same time.

你说的注意力分割,应该是最后一种,英备扒裤文里仿简面叫:divided attention,属于认知此或心理学的术语

㈧ 注意力机制

本文大部分的内容来自于 深度学习中的注意力机制

意力机制借鉴了人类注意力的说法,比如我们在阅读过程中,会把注意集中在重要的信息上。在训练过程中,输入的权重也都是不同的,注意力机制就是学习到这些权重。最开始attention机制在CV领域被提出来,但后面广泛应用在NLP领域。

需要注意的是,注意力机制是一种通用的思想和技术,不依赖于任何模型,换句话说,注意力机制可以用于任何模型。只是我们介绍注意力机制的时候更多会用encoder-decoder框架做介绍。

Encoder-Decoder 框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。下图是文本处理领域里Encoder-Decoder 框架最抽象的一种表示。

在NLP领域,可以把Encoder-Decoder框架看作是:将一个句子(篇章)转换成另一个句子(篇章)。最直观的例子就是机器翻译,将一种语言的表达翻译成另一种语言。对孙磨孙于句子对<source,target>,将给定输入句子
source,通过Encoder-Decoder框架生成目标句子target。其中,source和target都是一组单词序列:

Encoder是对source进行编码,转换成中间语义 :

对于解码器Decoder,其任务是根据中间语义C和当前已经生成的历史信息来生成下一时刻要生成的单词:

我们从最常见的Soft Attention模型开始介绍attention的基本思路。

在上一节介绍的Encoder-Decoder框架是没有体现出“注意力模型”的,为什么这么说呢?我们可以看下target的生成过程:

其中, 是Decoder的非线性变换函数。从上面式子中可以看出,在生成目标句子的单词时,不论生成哪个单词,它们使用的输入句子source的语义编码 都是一样的,没有任何区别。而语义编码 又是通过对source经过Encoder编码产生的,因此对于target中的任何一个单词,source中任意单词对某个目标单词 来说影响力都是相同的,这就是为什么说图1中的模型没有体现注意力的原因。

下面从一个例子入手,具体说明下注意力机制是怎么做的。

比游庆如机器翻译任务,输入source是英文句子:Tom chase Jerry;输出target想得到中文:汤姆 追逐 杰瑞。在翻译“Jerry”这个单词的时候,在普通Encoder-Decoder模型中,source里的每个单词对“杰瑞”的贡献是相同的,很明显这样不太合理,因为“Jerry”对于翻译成“杰瑞”更重要。如果引入Attention模型,在生成“杰瑞”的时候,应该体现出英文单词对于翻译当前中文单词不同的影响程度,比如给出类似下面一个概率分布值:

每个英文单词的概率代表了翻译当前单词“杰瑞”时注意力分配模型分配给不同英文单词的注意力大小。同理,对于target中任意一个单词都应该有对应的source中的单词的注意力分配概率,可以把所有的注意力概率看作 ,其中 表示source长度, 表示target长度。而且,由于注意力模型的加入,原来在生成target单词时候的中间语义 就不再是固定的,而是会根据注意力概率变化的 ,加入了注意力模型的Encoder-Decoder框架就变成了如图2所示。

根据图则链2,生成target的过程就变成了下面形式:

因为每个 可能对应着不同的注意力分配概率分布,比如对于上面的英汉翻译来说,其对应的信息可能如下:

其中, 表示Encoder对输入英文单词的某种变换函数,比如如果Encoder是用RNN模型的话,这个 函数的结果往往是某个时刻输入 后隐层节点的状态值;g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数,一般的做法中,g函数就是对构成元素加权求和,即:

其中, 代表输入句子Source的长度, 代表在Target输出第 个单词时Source输入句子第 个单词的注意力分配系数,而 则是Source输入句子中第 个单词的语义编码。假设下标 就是上面例子所说的“汤姆”生成如下图:

那另一个问题来了:注意力概率分布是怎么得到的呢?为了便于说明,我们假设图1的Encoder-Decoder框架中,Encoder和Decoder都采用RNN模型,那么图1变成下图4:

那么注意力分配概率分布值的通用计算过程如图5:

上面就是经典的soft Attention模型的基本思想,区别只是函数 会有所不同。

从我的角度看,其实Attention机制可以看作,Target中每个单词是对Source每个单词的加权求和,而权重是Source中每个单词对Target中每个单词的重要程度。因此,Attention的本质思想会表示成下图6:

将Source中的构成元素看作是一系列的<Key, Value>数据对,给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,即权重系数;然后对Value进行加权求和,并得到最终的Attention数值。将本质思想表示成公式如下:

其中, 表示Source的长度。

深度学习中的注意力机制 中提到:

因此,Attention机制的具体计算过程实际上分成了3个阶段,如图7:

第一阶段可以引入不同的函数和计算机制,根据Query和某个 ,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量cosine相似性或者引入额外的神经网络来求值,如下:

第二阶段引入类似SoftMax的计算方式,对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用的公式如下:

第三阶段的计算结果 即为 对应的权重系数,然后进行加权求和即可得到Attention数值:

通过如上三个阶段的计算,就可以求出针对Query的Attention数值。

上面介绍的是soft Attention,hard Attention的区别在于soft Attention中 是概率分布,而hard Attention取值为0/1。Hard Attention在图像上有使用,具体可见 引入attention机制 。

这里的global attention其实就是soft Attention,global attention需要考虑encoder中所有的 ;而local Attention直观上理解是只考虑局部的 。

Self-attention是Google在transformer模型中提出的,上面介绍的都是一般情况下Attention发生在Target元素Query和Source中所有元素之间。而Self Attention,指的是Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力机制。当然,具体的计算过程仍然是一样的,只是计算对象发生了变化而已。

上面内容也有说到,一般情况下Attention本质上是Target和Source之间的一种单词对齐机制。那么如果是Self Attention机制,到底学的是哪些规律或者抽取了哪些特征呢?或者说引入Self Attention有什么增益或者好处呢?仍然以机器翻译为例来说明,如图8和图9:

具体做法是点乘 和 ,然后除以 ,并经过Softmax,以此得到 的权重。也就是说Attention计算过程如下式,其中 是scaled factor:

注意力的计算一般有两种:加性注意力(additive attention)、乘法(点积)注意力(multiplicative attention)。(这里可以和第3部分计算相似度对应)

加性注意力是最经典的注意力机制,它使用了有一个隐藏层的前馈网络(全连接)来计算注意力; 乘法注意力就是Transformer用的方式。这两种注意力在复杂度上是相似的,但是乘法注意力在实践中要更快速、具有高效的存储,因为它可以使用矩阵操作更高效地实现。

Transformer原文:

Multi-Head Attention是用不同的 得到不同的Attention,最后将这些Attention拼接起来作为输出。公式如下:

其中, ;在Transformer模型中, 。

Scaled Dot-Proct Attention和Multi-Attention如下图所示:

㈨ 基于注意力机制的超分辨率简述

2018年提出的EDSR已经使得超分辨率方法有了很好的处理效果,近几年在超分辨率领域没有出现极具创新性的网络模型, 大多数都是在EDSR等经典超分辨率模型的基础上,针对模型存在的不足进行一定程度的创新 。

例如,为解决放大尺度单一的问题,Hu等人提出了Meta-SR模型,该模型能够以任意放大尺度对图像进行变换,且能连续放大图像。Menon等人提出了一种将生成的高分辨率图像降采样后与低分辨率图像匹配以确定高分辨率图像的方法。为避免卷积中的乘法运算,Song等人提出了加法网络(AdderNet)来解决超分辨率问题。

另一方面,目前注意力(Attention)机制在计算机视觉上的应用,使得网络能够具有更好的性能。自然地,在图像超分辨率领吵蔽域,基于注意力机制的模型也取得了较EDSR明显的提升。自2018年以来,基于注意力机制的方法带给该领域更多的可能。

注意力机制首先应用于NLP领域,取得了很好的成绩,并广泛应用。对于CV领域的注意力机制,本质与NLP领域的注意力机制是相同的,但实现方法是有本质不同的,毕竟NLP研究的是文本,而CV则是图像、视频等。在CV领域经典的注意力机制包括 通道注意力(Channel Attention,CA)和空间注意力(Spatial Attention,SA),这两种注意力可以单独使用,也可同时使用(串行或并行) 。其中,通道注意力关注的是 不同通道的特征 对于重建图像的贡献度,而空间注意力则是关注同一通道下, 不同像素区域的特征 对于重建图像的贡献度。

在计算机视觉的各个子领域都可以尝试添加注意力模块,以增强原有模型的性能。如在图像分类领域,有CBAM模型;还有很多学者专注于研究注意力模块的实现,而baseline选择ResNet,有EPSANet模型,SA-Net模型等。大量的注意力模块的研究都是基于高阶(high-level)的视觉问题,因此在超分辨率这样的低阶(low-level)问题上则有一定的差异,即同一注意力模块在低/高阶问题上的表现可能是有一定差异的。原因在于,高阶问题关注于图像的语义,而低阶问题则是关注图像中的各个像素值。因此,同样的注升李州意力模块在不同的问题上的表现是值得尝试的。

2018年,第一个基于注意力机制的超分辨率模型RCAN发表于ECCV,该模型的使用的注意力机制与SENet无异,其贡献主要在于扰激将注意力机制应用于超分辨率中,并用注意力的方式解释该方法。RCAN中仅使用了通道注意力(Channel Attention,CA)作为该模型的注意力模块,其余部分与EDSR相同。而从结果可以看出, 一个简单的通道注意力的加持,使得该模型较EDSR模型有0.1~0.4 dB以上的提升 。证明了注意力机制能够给超分辨率方法带来显着的提升,故此后有越来越多的文章研究基于注意力机制的超分辨率方法。

2019年的SAN模型,2020年的HAN模型,2021年的CRAN模型等等都进一步拓展注意力的实现方式,大部分学者都致力于研究一个 更复杂的注意力机制 ,使得在PSNR、SSIM等指标相较原有的SOTA模型有些许提升。然而随着注意力方法变得越来越复杂,带来的后果就是对硬件要求越来越高,计算量越来越大。鉴于这种背景,也有一部分学者致力于 研究轻量型的网络 ,保证在网络训练时间短的情况下,具有不差的表现,例如2020年的PAN模型和2021年的A²N模型,这些模型的表现略低于EDSR,但在参数量、训练时间方面,却远优于目前提出的绝大部分模型。

目前注意力机制在超分辨率方法上的困境在于,近几年复杂的注意力模块所取得的效果与RCAN的效果相差不大,基本都在0.1 dB以内,而其计算量和复杂程度则是肉眼可见的上升。传统的通道注意力和空间注意力已经满足不了更高性能的网络表现,为进一步提高网络表现,近几年提出了Pixel Attention,Sparse Attention等新的注意力机制,运用其他交叉学科的知识改进现有的注意力机制,如CRAN、DFSA、EACRN等。 这些新颖的注意力机制确实能赋予超分辨率方法更好的性能,但是却存在较大的边际效益。

相关文献

[1] RCAN

[2] SAN

[3] HAN

[4] CRAN

[5] PAN

[6] A²N

[7] DFSA

[8] EACRN

㈩ 请在下面这句话中挑出错误来(不计较语法错误)

在昏暗的光线(环境)下读书,对视力有害。

阅读全文

与ca注意力怎么加到分割网络中相关的资料

热点内容
沧州无线网络覆盖 浏览:200
路由器网络质量好还打不开网页 浏览:322
网络5g的流量是多少兆 浏览:270
开机时显示网络异常 浏览:876
手机网络依赖怎么回事 浏览:590
网络流传谣言有哪些 浏览:618
微信怎么显示无线网络 浏览:403
小米wifi放大器pro连接公共网络 浏览:250
小米路由器怎么设置网络速度 浏览:106
幼儿教师如何做好网络媒体管理 浏览:366
web30与网络营销 浏览:514
为什么网络信号满格却缓存不了 浏览:914
开封移动网络报修电话 浏览:368
手机怎么加网络信号 浏览:644
什么app可以用国外的网络 浏览:888
letv怎么打开无线网络 浏览:174
hpprobook无线网络开关 浏览:350
自己安装的wifi怎么没有网络 浏览:554
从哪设置网络4g 浏览:177
下载无线wifi网络国家 浏览:223

友情链接