㈠ 求高手舉例說明傅里葉變換在實際中怎麼聯系
您對於傅里葉變換恐怕並不十分理解
傅里葉變換的實質是將一個信號分離為無窮多多正弦/復指數信號的加成,也就是說,把信號變成正弦信號相加的形式——既然是無窮多個信號相加,那對於非周期信號來說,每個信號的加權應該都是零——但有密度上的差別,你可以對比概率陸告論中的概率密度來思考一下——落到每一個點的概率都是無限小,但這些無限小是有差別的
所以,傅里葉變換之後,橫坐標即為分離出的正弦信號的頻率,縱坐標對應的是加權密度
對於周期信號來說,因為確實可以提取出某些頻率的正弦波成分,所以其加權不為零——在幅度譜上,表現為無限大——但這些無限大顯然是有區別的,所以我們用沖激函數表示
已經說過,傅里葉變早頌明換是把各種形式的信號用正弦信號表示,因此非正弦信號進行傅里葉變換,會得到與原信號頻率不同的成分——都是原信號頻率的整數倍。這些高頻信號是用來修飾頻率與原信號相同的正弦信號,使之趨近於原信號的。所以說,頻譜上頻率最低的一個峰(往往是幅度上最高的),就是原信號頻率。
傅里葉變換把信號由時域轉為頻域,因此把不同頻率的信號在時域上拼接起來進行傅里葉變換是沒有意義的——實際情況下,我們隔一段時間採集一次信號進行變換,才能體現出信號在頻域上隨時間的變化。
我的語言可櫻唯能比較晦澀,但我已盡我所能向你講述我的一點理解——真心希望能對你有用。我已經很久沒在知道上回答過問題了,之所以回答這個問題,是因為我本人在學習傅里葉變換及拉普拉斯變換的過程中著實受益匪淺——它們幾乎改變了我對世界的認識。傅里葉變換值得你用心去理解——哪怕苦苦思索幾個月也是值得的——我當初也想過:只要會算題就行。但浙大校訓「求是」時時刻刻鞭策著我追求對理論的理解——最終經過很痛苦的一番思索才恍然大悟。建議你看一下我們信號與系統課程的教材:化學工業出版社的《信號與系統》,會有所幫助。
㈡ 在網路中起到分割網路的設備是什麼,為什麼
1.中繼器 (Repeater)
物理層(第一層)
功能: 信號在傳輸介質中傳輸會由於距離大而導致信號減弱失真,中繼器起放大信號作用,以便加長傳輸距離.
2.集線器(Hub)
物理層
功能:提供多網路借口,匯流排共享,並兼具中繼器的所有功能,每個埠平均傳輸數據量.
3.網橋(Bridge)
數據鏈路層
功能:主要作用是用來分割沖突域,減少網內的廣播流量。通常在早期的一些大網路中,當HUB數量過多,沖突域過大,就會造成廣播風暴,這時在網路中間適當的放置網橋就能夠分割沖突域,減少廣播風暴的可能。
4.交換機(Switch)
數據鏈路層
功能:
主要作用是用來分割沖突域,減少網內的廣播流量。通常在早期的一些大網路中,當HUB數量過多,沖突域過大,就會造成廣播風暴,這時在網路中間適當的放置網橋就能夠分割沖突域,減少廣播風暴的可能。
交換機(SWITCH)。理論上來理解它就是一台多埠的網橋。分為直通式交換機、存儲轉發式交換機和碎片隔離式交換機。是利用物理地址或者說MAC地址來確定轉發數據的目的地址。交換機的工作特性,即:交換機的所有埠共享一個廣播域,交換機的每個埠是一個沖突域。交換機不懂得IP地址,但它可以「學習」MAC地址,並把其存放在內部地址表中,通過在數據幀的始發者和目標接收者之間建立臨時的交換路徑,使數據幀直接由源地址到達目的地址。
5.路由器(Router)
網路層
功能:具有連接不同類型網路的能力並能夠選擇數據傳送路徑的網路設備。能作出決定為網路上的數據分組選擇最佳傳遞路徑,因為它根據網路地址轉發數據。換句話說,與交換機或網橋不同,路由器知道應向哪裡發送數據。
6.網關(Gateway)
功能:又稱網間連接器、協議轉換器。網關在傳輸層上以實現網路互連,是最復雜的網路互連設備,僅用於兩個高層協議不同的網路互連。網關的結構也和路由器類似,不同的是互連層。網關既可以用於廣域網互連,也可以用於區域網互連。 網關實質上是一個網路通向其他網路的IP地址。
㈢ 計算機視覺中的注意力機制研究
寫在前面的話:本文來自於本人的一次課程作業綜述,當時還是寫了很久的,不想交上去就完了,所以發上來留個紀念。
將注意力機制用在計算機視覺任務上,可以有效捕捉圖片中有用的區域,從而提升整體網路性能。計算機視覺領域的注意力機制主要分為兩類:(1) self-attention;(2) scale attention。這兩類注意力從不同的角度進行圖片內容理。本文將分別就這兩種注意力機制進行說明,並仔渣列舉相關的文獻。
注意力是人類大腦固有的一種信號處理機制。人類大腦通過快速從視覺信號中選擇出需要重點關注的區域,也就是通常所說的注意力焦點,然後重點處理這些區域的細節信息。通過注意力機制可以利用有限的大腦資源從大量的信息中篩選出有價值的信息。注意力機制最初被用在深度學習任務上是在機器語言翻譯領域,將源語言翻譯成目標語言,目標語言中的詞並非與源語言的所有詞都同等相關,而是僅與特定的幾個詞有相關性。因此,注意力機制可以將這個詞的注意力分配到這些最相關的詞上。之後,[1]中提出自注意力機制 (self-attention),並將其用於Transformer模塊中,極大提升了翻譯模型的精度和並行性。與傳統的注意力機制不同,self-attention的查詢(query)和鍵(key)屬於同一個域,計算的是同一條語句(或同一張圖片)中不同位置之間的注意力分配,念和悄從而提取該語句(或圖片)的特徵。
[2]首先將self-attention用於視覺任務中,提出了non-local network,來捕獲圖片(或視頻)中的長程依賴(long-range dependency)。Self-attention機制在視覺任務,如語義分割[3],生成對抗網路[4]中取得了巨大的成功。它解決了卷積神經網路的局部視野域問題,使得每個位置都可以獲得全局的視野域。不過,由於在視覺任務中,像素數極多,利用所有位置來計算每個位置的attention會導致巨大的計算和顯存開銷;另一方面,由於self-attention簡單將圖像當成一個序列進行處理,沒有考慮不同位置之間的相對位置關系,使得所得到的attention喪失了圖像的結構信息。之後對於self-attention的一個改進方向就是,在self-attention中加入相對位置信息或絕對位置信息編碼。
除了self-attention,視覺任務中另一類注意力機制為scale attention。與self-attention不同,scale attention基於每個位置本身的響應。就分類任務而言,每個位置的響應越大,則其對於最終的分類結果影響越大,那麼這個位置本身的重要性就越強。根據響應大小有選擇地對特徵圖進行強化或抑制,就可以在空間(或其他維度)上達到分配attention的目的。[5]所提棚滑出的SENet,就相當於channel-wise的attention。類似的還有GENet[6],CBAM[7]等,GENet將SENet中的channel-wise attention擴展到了spatial上,CBAM設計了串列的兩個模塊,分別進行channel-wise attention和spatial-wise attention的計算。另一篇工作resial attention network[8]也屬於這一類attention,與SENet系列不同之處在於,本文採用bottom-up top-down形式得到spatial attention,再將其以殘差的形式作用回原來的特徵。這一類注意力機制僅僅基於圖像中每個位置本身,對顯著區域進行增強,非顯著區域進行抑制,比self-attention機制更接近與人類視覺系統的注意力機制。
普通卷積將特徵圖的每個位置作為中心點,對該位置及其周圍的位置進行加權求和,得到新的特徵圖上該位置對應的濾波結果,對於邊緣,必要時可以用0進行填充。這一操作可以有效提取圖片的局部信息。隨著網路加深,卷積層不斷堆疊,每個位置的視野域也越來越大,網路提取到的特徵也逐漸由一些low-level的特徵,如顏色、紋理,轉變到一些high-level的結構信息。但是,簡單通過加深網路來獲取全局視野域,所帶來的計算開銷是很大的,並且,更深的網路會帶來更大的優化難度。
Self-attention操作[2]可以有效地捕獲不同位置之間的long-range dependency,每個位置的特徵都由所有位置的加權求和得到,這里的權重就是attention weight。由此,每個位置都可以獲取全局的視野域,並且不會造成特徵圖的退化(解析度降低),這對於一些密集的預測任務,如語義分割、目標檢測等,具有很大的優勢。
圖1展示了self-attention的網路結構。給定輸入X,將兩個1x1卷積分別作用於X上,得到的兩個特徵利用f(⋅)得到相關性矩陣,圖中展示的f(⋅)為矩陣乘法。最後將相關性矩陣作用在原特徵經過1x1卷積變換後的特徵上。
公式(1)展示了第i個位置的相應的計算方法,其中f(⋅)為相關性函數,g(⋅)為變換函數,x_i為輸入第i個位置的特徵,y_i為第i個位置的輸出特徵,C(x)為歸一化因子,一般採用總位置的個數。
由於self-attention可以有效捕獲圖片(或視頻)中的長距離依賴,從而在不影響特徵解析度的同時獲取全局的視野域,在視覺任務上引入self-attention,可以帶來較大的性能提升。
論文[2]將self-attention用在視頻動作識別任務上,如圖2,對於視頻中動作的識別,可能會跨越多幀,需要建立多幀視頻之間的聯系,self-attention的這種長距離依賴的特徵就能有效建立多幀不同位置之間的聯系。
論文[2]將self-attention用在分割任務上。由於孤立預測每個位置的類別很容易導致分錯,分割任務需要結合每個位置的上下文對該位置進行分類。文章定義了所謂物體上下文(object context),即每個位置所屬於的類別構成的集合,即為這個位置所屬於的object context。 Object context是由不同位置的特徵相似度來定義的,也就是self-attention過程中的相似度矩陣,將相似度矩陣與原特徵進行相乘,即可將object context作用於該特徵圖。由此,文章提出了Object Context Network(OCNet),如圖3。其中,base-OC為基本的self-attention模塊,pyramid-OC和ASP-OC分別將self-attention與PSP模塊和ASPP模塊結合,在提取object context的同時,利用不同倍率的pooling操作或不同ratio的dilated convolution獲取多尺度的特徵,最大程度的利用context信息對原圖進行分割。不過,本文雖然提出object context為每個像素及所有其他與其屬於同一類的像素構成的集合,在實際操作的時候卻並不是這樣計算每個位置的object context的,特徵上的相似性並不一定代表屬於同一位置。因此,用object context來給self-attention新的解釋,在說服力上還是存在一定問題的。
Scale attention是另一種注意力機制,與self-attention不同,scale attention是只基於key context的,對圖像中的顯著性區域進行增強,其他區域相應的進行抑制,從而使得輸出的特徵具有更強的區分性。這一類注意力機制的代表工作包括,resial attention network[8],squeeze-and-excite network[5],gather-and-excite network[6]以及CBAM[7]。
[8]提出,在分類網路中,網路深層比淺層更關注於被分類的物體,也就是圖片的主體內容,這是因為,深層網路具有更大的視野域,可以看到更廣的范圍;而淺層網路只能看到每個位置及其鄰域。因此,如果將網路較深層的信息作為一種mask,作用在較淺層的特徵上,就能更好的增強淺層特徵中對於最終分類結果有幫助的特徵,抑制不相關的特徵。如圖5所示,將attention作為mask作用在原來特徵上,得到的輸出就會更加集中在對分類有幫助的區域上。
因此,文章提出一種bottom-up top-down的前向傳播方法來得到圖片的attention map,並且將其作用在原來的特徵上,使得輸出的特徵有更強的區分度。圖6展示了這種attention的計算方式。由於更大的視野域可以看到更多的內容,從而獲得更多的attention信息,因此,作者設計了一條支路,通過快速下采樣和上采樣來提前獲得更大的視野域,將輸出的特徵進行歸一化後作用在原有的特徵上,將作用後的特徵以殘差的形式加到原來的特徵上,就完成了一次對原有特徵的注意力增強。文章還提出了一個堆疊的網路結構,即resial attention network,中間多次採用這種attention模塊進行快速下采樣和上采樣。
這篇文章在視覺領域開前向傳播的注意力機制的先河,之後的注意力機制都是採用這種前向傳播過程中得到的attention進行增強,並且一般為了優化方便,都會以殘差的方式進行。
Squeeze-and-excite是另一類scale attention。與resial attention不同,squeeze-and-excite通過global pooling來獲得全局的視野域,並將其作為一種指導的信息,也就是attention信息,作用到原來的特徵上。
[5]提出了squeeze-and-excite network(SENet),提出了channel-wise的scale attention。特徵圖的每個通道對應一種濾波器的濾波結果,即圖片的某種特定模式的特徵。對於最終的分類結果,這些模式的重要性是不同的,有些模式更重要,因此其全局的響應更大;有些模式不相關,其全局的響應較小。通過對不同通道的特徵根據其全局響應值,進行響應的增強或抑制,就可以起到在channel上進行注意力分配的作用。其網路結構如圖7所示,首先對輸入特徵進行global pooling,即為squeeze階段,對得到的特徵進行線性變換,即為excite階段,最後將變換後的向量通過廣播,乘到原來的特徵圖上,就完成了對不同通道的增強或抑制。SENet在2017年的ImageNet2017的分類比賽上獲得了冠軍,比之前的工作有了較大的性能提升。
[6]進一步探索了squeeze-and-excite在更細的粒度上的表現,提出了gather-excite操作。SENet將每個通道的特徵圖通過global pooling得到一個值,本文採用了不同步長的pooling(2x,4x,8x,global),然後利用上采樣將pooling後的特徵插值恢復到原來大小,最後作用在原來特徵圖上,具體操作如圖8所示。不過,實驗結果顯示,global pooling的性能最好,將特徵區間劃分得更細致雖然增加了參數,但是反而會帶來性能的下降。
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7794-7803.
[3] Yuan Y, Wang J. Ocnet: Object context network for scene parsing[J]. arXiv preprint arXiv:1809.00916, 2018.
[4] Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. arXiv preprint arXiv:1805.08318, 2018.
[5] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.
[6] Hu J, Shen L, Albanie S, et al. Gather-Excite: Exploiting feature context in convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2018: 9401-9411.
[7] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention mole[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.
[8] Wang F, Jiang M, Qian C, et al. Resial attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3156-3164.
㈣ CA:用於移動端的高效坐標注意力機制 | CVPR 2021
論文: Coordinate Attention for Efficient Mobile Network Design
目前,輕量級網路的注意力機制大都採用SE模塊,僅考慮了通道間的信息,忽略了位置信息。盡管後來的BAM和CBAM嘗試在降低通道數後通過卷積來提取位置注意力信息,但卷積只能提取局部關系,缺乏長距離關系提取的能力。為此,論文提出了新的高效注意力機制coordinate attention,能夠將橫向和縱向的位置信息編碼到channel attention中,使得移動網路能夠關注大范圍的位置信息又不會帶來過多的計算量。
coordinate attention的優勢主要有以下幾點:
Coordinate Attention可看作增強移動網路特徵表達能力的計算單元培蘆,接受中間特徵 作為輸入,輸出與 大小相同的增強特徵 。
Coordinate Attention基於coordinate information embedding和coordinate attention generation兩個步驟來編碼通道關系和長距離關系。
channel attention常用全局池化編碼全局空間信息,將全局信息壓縮成一個標量,難以保留重要的空間信息。為此,論文將全局池化改造成兩個1維向量的編碼操作。對於輸入 ,使用池化核 和 來編碼水平方向和垂直方向特徵,即第 維特徵的輸出為:
上面的公式從不同的方向集成特徵,輸出一對方向可知的特徵圖。對比全局缺中游池化的壓縮方式,這樣能夠允許attention block捕捉單方向上的長距離關系同時保留另一個方向上的空間信息,幫助網路更准確地定位目標。
為了更好地利用上述的coordinate infomation,論文提出了配套的coordinate attention generation操作,主要基於以下三點准則進行設計:
首先將公式4和公式5的輸出concatenate起來,使用 卷積、BN和非線性激活進行特徵轉化:
為包含橫向和縱向空間信息的中間特徵, 為縮減因子。這里兩個方向的特徵沒有做激烈的融合,concatenate的主要目的我覺得是進行統一的BN操作。隨後將 分為兩個獨立的特徵 和 ,使用另外兩個 卷積和sigmoid函數進行特徵轉化,使其維度與輸入 一致:
將輸出 和 合並成權重矩陣,用於計算coordinate attention block輸出:
coordinate attention block與se block的最大區別是,coordinate attention block的每個權重都包含了通道間信息、橫向空間信息和縱向空間信息,能夠幫助網路伏銷更准確地定位目標信息,增強識別能力。
將coordinate attention block應用於MobileNetV2和MobileNeXt上,block結構如圖3所示。
基於MobileNetV2進行模塊設置的對比實驗。
不同注意力結構在不同主幹網路上的性能對比。
對目標檢測網路的性能對比。
對語義分割任務的性能對比。
論文提出新穎的輕量級通道注意力機制coordinate attention,能夠同時考慮通道間關系以及長距離的位置信息。通過實驗發現,coordinate attention可有效地提升模型的准確率,而且僅帶來少量的計算消耗,十分不錯。
㈤ 注意力機制加在什麼位置
注意力機制可以加在編碼層和解碼層之間,甚至可以加在Auto-Encoder裡面。
此外,深度殘差收縮網路是一種特殊的注意力機制演算法,實現了注意力機制下的軟閾值化;把注意力機制嵌入到了殘差模塊裡面。
視覺注意力機制:
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關注的目標區域,也就是一般所說的注意力焦點,而後對這一區域投入更多注意力資源,以獲取更多所需要關注目標的細節信息,而抑制其他無用信息。
這是人類利用有限的注意力資源從大量信息中快速篩選出高價值信息的手段,是人類在長期進化中形成的一種生存機制,人類視覺注意力機制極大地提高了視覺信息處理的效率與准確性。
㈥ 用於語義分割的分層多尺度注意力
https://arxiv.org/abs/2005.10821
https://github.com/NVIDIA/semantic-segmentation
1.5k星
21 May 2020
最近開源了: https://paperswithcode.com/paper/hierarchical-multi-scale-attention-for#code
摘要: 多尺度推理常用於改善語義分割結果。將圖像縮放到多個不同尺度,再輸入給同一個網路,再將結果取平均或最大池化。本文提出一個基於注意力的方法來組合多尺度預測。我們表明,某些尺度下的預測更能處理特定的故障情況,而網路學會了在這種特定情況下更傾向於這些尺度,以便輸出更好的結果。我們的注意力機制是分層的,這使得它的內存效率比其他最近的方法快4倍。這樣除了能夠訓練地更快以外,還能讓我們使用更大的裁剪尺寸訓練,從而使得模型准確度更高帆簡。我們在Cityscapes和Mapillary Vistas兩個數據集上驗證我們的方法。對於具有大量弱標注圖像的Cityscapes數據集,我們還利用自動標注改進泛化能力。我們的方法在Cityscapes數據集(85.1 IOU test)和Mapillary Vistas數據集(61.1 IOU val)上都取得最先進水平。
關鍵詞:語義分割、注意力、自動標注
1.引言
語義分割的任務是給圖像中所有像素打上多個類別中的一個的標簽。該任務有個折中,臘轎冊就是某些情況下的預測在低解析度下推理得更好,而另一些情況下的預測在高解析度下推理得更好。在放大的圖像尺寸下,精細的細節,例如物體邊緣或者細長的結構,會推理得更好。同時,縮小的圖像尺寸下,對需要更多的全局上下文信息的大物體會推理得更好,因為網路的感受野可以觀察到更多的必要的上下文信息。我們將後一種問題稱為類別混淆(class confusion)。兩種情況的例子如圖1所示。
多尺度推理是這一問題的常見解決辦法。圖像縮放到多個不同尺度,再輸入給同一個網路,再將結果取平均或最大池化。取平均來組合多個尺度的預測通常可提高結果,但存在將最佳預測和最差預測結合的問題。煮個栗子,對於某像素,最佳預測來自2×尺度,其0.5×尺度的預測要差很多,取平均的話會將這兩者結合起來,得到一個次優的輸出。另一方面,最大池化是選擇該像素在多個尺度預測中的一個,而最優結果可能是多個尺度預測的加權組合。
為了解決這個問題,我們提出一種使用注意力機制來將某像素的多個尺度預測結合在一起的辦法,類似於Chen[1]。我們提出一種層次化的注意力機制,學習預測相鄰尺度之間的關系權重,由於它是層次化的,所以我們只需要增加一個額外的尺度的訓練pipeline,而其它的方法,例如[1],則需要在訓練階輪宏段顯示地增加每一個額外的推理尺度。例如,當多尺度推理為{0.5,1.0,2.0}時,其它的注意力方法要求網路在所有這些尺度上訓練,導致額外的 倍的訓練成本。我們的方法只需要再增加0.5×尺度的訓練,導致增加 倍的訓練成本。此外,我們提出的層次化機制還可使推理時具有選擇額外的尺度的靈活性,而以往的方法在推理的時候只能使用訓練時候的尺度。為了在Cityscapes上取得最先進水平,我們還使用了一種對粗標注圖像的自動標注策略,以增加數據集中的方差,以提高泛化能力。我們的自標注方法是受一些最近的工作的啟發,包括[2,3,4]。和典型的軟標簽不同,我們使用硬標注,這樣標簽存儲內存就更小,可以降低磁碟IO成本,提高訓練速度。
1.1 貢獻
一種高效地層次化注意力機制,使網路可以學習如何最好地組合多個尺度的推理,能解決類別混淆和細節的問題。
一種基於硬-閾值的自動標注策略,利用未標記圖像來提升IOU。
在Cityscapes數據集(85.1 IOU test)和Mapillary Vistas數據集(61.1 IOU val)上取得最先進水平。
2 相關工作
多尺度上下文 最先進的語義分割網路使用低輸出步長的主幹網路,這可以更好地分割細節,但是感受野也較小。小的感受野會導致網路難以預測大物體。金字塔池化可通過組合多個尺度的上下文來解決感受野較小的問題。PSPNet[5]使用一個空間金字塔池化模塊,使用主幹網路的最後一層的特徵,用一些列卷積和池化來組合多個尺度的特徵。DeepLab[6]使用Atrous Spatial Pyramid Pooling(ASPP),用不同擴張率的擴張卷積,以建立比PSPNet更加稠密的特徵。最近ZigZagNet[7]和ACNet[8]使用中間層特徵,而不僅僅是最後層特徵,來創建多尺度上下文。
關繫上下文 實際上金字塔池化關注的是固定的方形上下文區域,因為池化和擴張通常都是對稱的。此外這些方法是固定的,不是可學習的。關繫上下文通過關注像素之間的關系來構建上下文,而不是固定的方向區域。關繫上下文的可學習特性使得上下文的構建可基於圖像的各個分區。該方法能夠對非正方形的物體區域構建更合適的上下文,例如長火車和細高的燈柱。OCRNet[9]、DANET[10]、CFNet[11]、OCNet[12]和其他相關工作[13,14,15,16,17,18,19,20]利用這些關系來構建更好的上下文。
多尺度推理 一些關繫上下文和多尺度上下文方法都使用了多尺度推理來達到最好的結果,例如[21,22,23,9]。多尺度推理有兩種常見方法:取平均和最大池化,取平均要更常見些。然而,取平均對不同尺度的輸出是等權重的,這樣的結果可能是次優的。為了解決這個問題,[1,24]使用注意力組合多個尺度。[1]使用網路的最後層特徵來訓練一個建模各個尺度間關系的注意力頭。[24]組合不同層的特徵來構建更好的上下文信息。然而,這兩種方法有共同的確定,網路和注意力頭是用一組固定尺度訓練的,推理時只能使用這些尺度,否則網路要重新訓練。我們提出一種層次化的注意力機制,它對推理時用多少個尺度是無關的。我們方法不僅比取平均的性能更好,而且,更進一步地,我們的方法可用於可視化、診斷不同尺度分別對不同物體類別和場景的重要性。此外,我們的方法和其它的注意力方法和金字塔池化方法是正交的,例如[22,25,26,9,27,10,28],因為這些方法使用單個尺度,並使用注意力來更好地組合不同層級的特徵,以生成高解析度的預測。
自動標注 很多在Cityscapes上的語義分割工作都使用了大約2w張的粗標注圖像以達到最先進水平[12,29]。然而,由於標簽是粗標注的,圖像中相當一部分是未標記的。為了在Cityscapes上取得最先進水平,我們提出一種自動標注策略,我們的靈感是來自於NoisyStudent[2],以及其他語義分割半監督自訓練方法[30,31,32,33,34],以及其他基於偽標注方法[4,35,36,3]。我們為Cityscapes的粗標注圖像生成稠密標注。我們生成的標簽只有很少的未標注區域,這樣我們就能夠充分利用粗標注數據的全部圖像內容。
雖然大多數圖像分類的自標注方法使用軟標簽,但為了提高存儲效率和訓練速度,我們用的是被閾值過的硬標簽。軟標簽在語義分割中是指,教師網路為圖像的每個像素上都提供分別屬於每個類別的概率。而硬標簽是用閾值從各個類別的概率中選出最大的。類似於[37,4],我們為Cityscapes粗標注圖像生成稠密的硬標簽。圖4是一些例子。不同於NoisyStudent[2],我們對生成的偽標簽不做迭代的調精。相反,我們使用默認的粗標注數據和精細標注數據,對教師模型進行一次完整的訓練。在聯合訓練之後,對粗標注圖像進行自動標注,在將這些自動標注數據替換我們教師模型用的粗標注數據,以獲得最好的測試結果。使用我們的偽硬標注和層次化注意力,我們能獲得在Cityscapes上的最先進水平。
3.層次多尺度注意力
我們的注意機制在概念上與[1](Attention to scale)非常相似,在[1]中,在每個尺度下都學習,得到dense mask,並通過在對mask執行像素級乘法,然後在不同尺度之間進行像素級求和,來組合這些多尺度預測,以獲得最終結果,見圖2。我們稱陳的方法為 顯式方法 。使用我們的 分層方法 ,我們學習相鄰尺度之間的相對注意mask,而不是學習每個尺度的所有注意mask。在訓練網路時,我們只使用相鄰的尺度對(adjacent scale pairs)進行訓練。如圖2所示,給定一組來自單個(較低)尺度的圖像特徵,我們預測兩個圖像尺度之間的像素級的密集的相對注意力權重(dense pixel-wise the relative attention)。實際上,為了獲得一對縮放圖像,我們獲取一個輸入圖像並將其縮小2倍,這樣我們就剩下1倍縮放輸入和0.5倍縮放輸入,盡管可以選擇任何縮小比率。需要注意的是,網路輸入本身是原始訓練圖像的重新縮放版本(re-scaled version),因為我們在訓練時使用圖像縮放增強。這允許網路學習預測一個范圍內(a range of)的圖像尺度的相對注意力。在進行推理時,我們可以分層地應用所學的注意力,將N個預測尺度組合在一起,形成一個計算鏈,如圖所示,並由下面的等式描述。我們優先考慮較低的尺度,並努力向更高的尺度發展,我們的想法是,它們有更多的全局上下文,可以選擇哪些區域是需要通過更高尺度的預測來refine的。
更正式地,在訓練期間,給定的輸入圖像縮放因子 ,r=0.5表示下采樣兩倍,r=2.0表示上采樣2倍,r=1表示不進行操作。對於我們的訓練,我們選擇r=0.5和r=1.0。然後,r=1和r=0.5的兩個圖像通過一個共同的網路塊(the shared network trunk),該網路塊輸出各個尺度下的semantic logits 和注意力掩碼 ,該掩碼 用來組合不同尺度下的logits 。因此,如果訓練和推理都使用2個尺度的話,令 表示雙線性上采樣,∗ 和+分別為逐像素乘法和加法,公式可形式化為:
使用我們提出的方法有兩個優勢:
• 在推理時,我們現在可以靈活地選擇不同的尺度,因此,通過我們提出的分層式注意力機制鏈,對於在0.5x和1.0x尺度下訓練的模型,我們在推理時可以添加新的尺度例如如0.25x或2.0x。這不同於先前提出的方法,先前的方法訓練時使用哪些尺度,在推理時就得用哪些尺度。
• 與顯式方法相比,這種層次結構使我們能夠提高訓練效率。使用顯式方法,如果使用0.5、1.0、2.0尺度,相對於單量表訓練,訓練成本為0.5^2+1.0^2+2.0^2=5.25。採用我們的分層方法,訓練成本僅為0.5^2+1.02=1.25。
3.1 架構
主幹: 對於本節中的消融研究,我們使用ResNet-50[38](配置為輸出步幅8)作為我們網路的trunk。為了獲得最先進的結果,我們使用了更大、功能更強大的主幹HRNet OCR[9]。
語義頭: 語義預測由一個專用的全卷積頭執行,該卷積頭包括(3x3 conv)→ (BN)→ (ReLU)→ (3x3卷積)→ (BN)→ (ReLU)→ (1x1 conv)。最後的卷積輸出num_classes個通道。
注意頭:
注意力預測是使用一個單獨的頭部來完成的,該頭部在結構上與語義頭部相同,除了最終的卷積輸出,它輸出一個通道。當使用ResNet-50作為主幹時,語義頭和注意頭會收到ResNet-50最後階段的特徵。當使用HRNet OCR時,語義和注意頭會收到OCR塊中的特徵。使用HRNet OCR的時候,還存在一個 輔助語義頭 ,在OCR之前直接從HRNet主幹獲取其特徵。該頭部包括(1x1 conv)→ (BN)→ (ReLU)→ (1x1 conv)。在將注意力應用於語義logits之後,使用雙線性上采樣將預測上采樣到目標圖像大小。
3.2 分析
為了評估我們的多尺度注意力方法的有效性,我們使用DeepLab V3+架構和ResNet50主幹訓練網路。在表1中,我們表明,與基線平均法(49.4)或顯式法(51.4)相比,我們的分層注意法具有更好的准確性(51.6)。我們還觀察到,當添加0.25倍尺度時,我們的方法的結果明顯更好。與顯式方法不同,當使用額外的0.25倍尺度時,我們的方法不需要重新訓練網路。這種 推理時的靈活性 是我們方法的一個主要優點。我們可以訓練一次,但可以靈活地用不同的尺度進行評估。
此外,我們還觀察到,對於基線平均多尺度方法,簡單地添加0.25倍尺度對精度有害,因為它會導致IOU減少0.7,而對於我們的方法,添加額外的0.25倍尺度會將精度再提高0.6個IOU。使用基線平均法,0.25倍的預測是如此粗糙,以至於當與到其他尺度平均時,我們觀察到諸如車道標記、人洞、電話亭、路燈、交通燈和交通標志(前後)、自行車架等類別下降1.5 IOU。預測的粗糙度損害了邊緣和細節。然而,在我們提出的注意方法中,添加0.25倍的比例將我們的結果提高了0.6,因為我們的網路能夠以最合適的方式應用0.25倍的預測,避免在邊緣使用它。這方面的例子可以在圖3中觀察到,其中對於左側圖像中的fine posts,0.5x預測很少關注posts,但2.0x尺度中存在非常強的注意信號。相反,對於右側非常大的區域,注意機制學習到最大程度地利用較低的尺度(0.5倍),很少利用錯誤的2.0倍預測。
3.2.1單尺度與雙尺度特徵
雖然我們確定的架構只從兩個相鄰圖像尺度中較低的一個尺度的特徵輸入給注意力頭(見圖2),但我們也嘗試用兩個相鄰尺度的特徵訓練注意力頭。我們沒有觀察到准確度上的顯著差異,所以我們選擇了單個尺度的特徵。
4.Cityscapes上的自動標注
受最近的在圖像分類上任務上的自動標注工作[2,39]的啟發,我們在Cityscapes數據集上使用自動標注來提升有效數據集的大小和標注的質量。Cityscapes有2w張粗標注圖像和3500張精細標注圖像。粗標注圖像的標注非常一般,有大量像素是無標簽的,如圖4所示。通過我們的自動標注方法,我們可以提高標簽質量,這反過來又有助於提升模型的IOU。
圖像分類中常用的是軟標簽,或者稱為連續標簽。在語義分割中,軟標簽是為每一像素標上所屬各個類別的概率,這樣很占磁碟空間,訓練速度會很慢,標簽會佔大約3.2TB的磁碟:20000×2048×1024×19×4B=3.2TB。訓練期間讀取這些標簽會大大降低訓練速度。
因此,我們用硬標簽,即對每個像素,選擇教師網路輸出的最大類別概率。我們對教師網路輸出的概率標簽進行閾值化。超過閾值的概率視為標簽,否則該像素被視為忽略類。實踐中,我們使用0.9的閾值。
5 結果
5.1 實施協議
在本節中,我們將詳細描述我們的實現協議。
訓練詳情
我們的模型在Nvidia DGX伺服器上使用Pyrotch[40]進行訓練,每個節點包含8個GPU,具有混合精度、分布式數據並行訓練和同步批處理規范化。我們的優化器使用隨機梯度下降(SGD),每GPU的批量大小為1,動量為0.9,重量衰減為5e−4.在訓練中。我們採用「多項式」學習率策略[41]。在默認設置下,我們使用RMI[42]作為主要損失函數,並使用交叉熵作為輔助損失函數。對於城市景觀,我們使用2.0的多指數,初始學習率為0.01,並在2個DGX節點上訓練175個歷元。對於Mapillary,我們使用1.0的多邊形指數、0.02的初始學習率,並在4個DGX節點上訓練200個歷元。如[29]中所述,我們在數據載入器中使用類均勻采樣,從每個類中平均采樣,這有助於在數據分布不均勻時改進結果。
數據增強:
在訓練過程中,我們對輸入圖像採用高斯模糊、顏色增強、隨機水平翻轉和隨機縮放(0.5x-2.0x)來增強數據集。城市景觀的裁剪尺寸為2048x1024,Mapillary Vistas為1856x1024。
5.1.1城市景觀結果
Cityscapes[43]是一個大型數據集,在5000幅高解析度圖像上標記了19個語義類。對於城市景觀,我們使用HRNet OCR作為主幹,並提出了多尺度注意方法。我們使用RMI作為主分割頭的損失,但對於輔助分割頭,我們使用交叉熵,因為我們發現使用RMI損失會導致深入訓練的訓練精度降低。我們的最佳效果是首先在較大的Mapillary Vistas數據集上進行預訓練,然後在城市景觀上進行訓練。對於Mapillary預訓練任務,我們不會使用注意力機制進行訓練。除了自動標記的粗略圖像外,我們還使用train+val圖像實現了最先進的城市景觀配方。我們從train+val集合中用50%的概率采樣,另外我們從自動標記的圖像池中采樣。在推斷時,我們使用scales={0.5,1.0,2.0}和圖像翻轉。
我們對城市景觀驗證集進行了消融研究,如表2所示。多尺度注意力產生的IOU比基線HRNet OCR架構平均池高0.5%。自動標簽比基線提高了1.1%的IOU。將這兩種技術結合在一起可獲得1.4%IOU的總增益。
最後,在表3中,我們展示了我們的方法與Cityscapes測試集中其他性能最好的方法相比的結果。我們的方法得分為85.1,這是所有方法中報告的最佳城市景觀測試分數,比之前的最佳分數高0.6 IOU。此外,我們的方法在除三個類別外的所有類別中都擁有最高的每班分數。圖5顯示了一些結果。
5.1.2 Mapillary Vistas遠景的結果
Mapillary Vistas[45]是一個大型數據集,包含25000個高解析度圖像,注釋為66個對象類別。對於Mapillary,我們使用HRNet OCR作為主幹,並提出了多尺度注意方法。因為Mapillary Vistas圖像可以具有非常高且不同的解析度,所以我們調整圖像的大小,使長邊為2177,如[23]中所述。我們使用在ImageNet分類上訓練的HRNet的權重初始化模型的HRNet部分。由於Mapillary中66個類需要更大的內存,我們將裁剪大小減少到1856 x 1024。在表4中,我們展示了我們的方法在Mapillary驗證集上的結果。我們單個模型達到61.1,比下一個最接近的方法Panopoptic Deeplab[23]高2.4,後者使用模型集成實現58.7。
6 結論
在這項工作中,我們提出了一種分層的多尺度注意語義分割方法。我們的方法在提高分割精度的同時,也提高了內存和計算效率,這兩者都是實際問題。訓練效率限制了研究的速度,而GPU內存效率限制了裁剪網路的訓練尺度,這也限制了網路的准確性。我們的經驗表明,使用我們提出的方法可以持續改善城市景觀和Mapillary Vistas。
致謝:我們要感謝Sanja Fidler、Kevin Shih、Tommi Koivisto和Timo Roman的有益討論。
㈦ 注意力分割~的英文怎麼說
英語裡面,你問的這幾個表達不是一個意思,看看下面的哪個表達更合適你?
三心二意,應該是: absent-minded
分心,注意力分散,應該是:distracted, draw one's attention away from something.
同時進行不同事務的能力,應該是:multi-tasking skills, it means to handle two or more things at the same time.
你說的注意力分割,應該是最後一種,英備扒褲文里仿簡面叫:divided attention,屬於認知此或心理學的術語
㈧ 注意力機制
本文大部分的內容來自於 深度學習中的注意力機制
意力機制借鑒了人類注意力的說法,比如我們在閱讀過程中,會把注意集中在重要的信息上。在訓練過程中,輸入的權重也都是不同的,注意力機制就是學習到這些權重。最開始attention機制在CV領域被提出來,但後面廣泛應用在NLP領域。
需要注意的是,注意力機制是一種通用的思想和技術,不依賴於任何模型,換句話說,注意力機制可以用於任何模型。只是我們介紹注意力機制的時候更多會用encoder-decoder框架做介紹。
Encoder-Decoder 框架可以看作是一種深度學習領域的研究模式,應用場景異常廣泛。下圖是文本處理領域里Encoder-Decoder 框架最抽象的一種表示。
在NLP領域,可以把Encoder-Decoder框架看作是:將一個句子(篇章)轉換成另一個句子(篇章)。最直觀的例子就是機器翻譯,將一種語言的表達翻譯成另一種語言。對孫磨孫於句子對<source,target>,將給定輸入句子
source,通過Encoder-Decoder框架生成目標句子target。其中,source和target都是一組單詞序列:
Encoder是對source進行編碼,轉換成中間語義 :
對於解碼器Decoder,其任務是根據中間語義C和當前已經生成的歷史信息來生成下一時刻要生成的單詞:
我們從最常見的Soft Attention模型開始介紹attention的基本思路。
在上一節介紹的Encoder-Decoder框架是沒有體現出「注意力模型」的,為什麼這么說呢?我們可以看下target的生成過程:
其中, 是Decoder的非線性變換函數。從上面式子中可以看出,在生成目標句子的單詞時,不論生成哪個單詞,它們使用的輸入句子source的語義編碼 都是一樣的,沒有任何區別。而語義編碼 又是通過對source經過Encoder編碼產生的,因此對於target中的任何一個單詞,source中任意單詞對某個目標單詞 來說影響力都是相同的,這就是為什麼說圖1中的模型沒有體現注意力的原因。
下面從一個例子入手,具體說明下注意力機制是怎麼做的。
比游慶如機器翻譯任務,輸入source是英文句子:Tom chase Jerry;輸出target想得到中文:湯姆 追逐 傑瑞。在翻譯「Jerry」這個單詞的時候,在普通Encoder-Decoder模型中,source里的每個單詞對「傑瑞」的貢獻是相同的,很明顯這樣不太合理,因為「Jerry」對於翻譯成「傑瑞」更重要。如果引入Attention模型,在生成「傑瑞」的時候,應該體現出英文單詞對於翻譯當前中文單詞不同的影響程度,比如給出類似下面一個概率分布值:
每個英文單詞的概率代表了翻譯當前單詞「傑瑞」時注意力分配模型分配給不同英文單詞的注意力大小。同理,對於target中任意一個單詞都應該有對應的source中的單詞的注意力分配概率,可以把所有的注意力概率看作 ,其中 表示source長度, 表示target長度。而且,由於注意力模型的加入,原來在生成target單詞時候的中間語義 就不再是固定的,而是會根據注意力概率變化的 ,加入了注意力模型的Encoder-Decoder框架就變成了如圖2所示。
根據圖則鏈2,生成target的過程就變成了下面形式:
因為每個 可能對應著不同的注意力分配概率分布,比如對於上面的英漢翻譯來說,其對應的信息可能如下:
其中, 表示Encoder對輸入英文單詞的某種變換函數,比如如果Encoder是用RNN模型的話,這個 函數的結果往往是某個時刻輸入 後隱層節點的狀態值;g代表Encoder根據單詞的中間表示合成整個句子中間語義表示的變換函數,一般的做法中,g函數就是對構成元素加權求和,即:
其中, 代表輸入句子Source的長度, 代表在Target輸出第 個單詞時Source輸入句子第 個單詞的注意力分配系數,而 則是Source輸入句子中第 個單詞的語義編碼。假設下標 就是上面例子所說的「湯姆」生成如下圖:
那另一個問題來了:注意力概率分布是怎麼得到的呢?為了便於說明,我們假設圖1的Encoder-Decoder框架中,Encoder和Decoder都採用RNN模型,那麼圖1變成下圖4:
那麼注意力分配概率分布值的通用計算過程如圖5:
上面就是經典的soft Attention模型的基本思想,區別只是函數 會有所不同。
從我的角度看,其實Attention機制可以看作,Target中每個單詞是對Source每個單詞的加權求和,而權重是Source中每個單詞對Target中每個單詞的重要程度。因此,Attention的本質思想會表示成下圖6:
將Source中的構成元素看作是一系列的<Key, Value>數據對,給定Target中的某個元素Query,通過計算Query和各個Key的相似性或者相關性,即權重系數;然後對Value進行加權求和,並得到最終的Attention數值。將本質思想表示成公式如下:
其中, 表示Source的長度。
深度學習中的注意力機制 中提到:
因此,Attention機制的具體計算過程實際上分成了3個階段,如圖7:
第一階段可以引入不同的函數和計算機制,根據Query和某個 ,計算兩者的相似性或者相關性,最常見的方法包括:求兩者的向量點積、求兩者的向量cosine相似性或者引入額外的神經網路來求值,如下:
第二階段引入類似SoftMax的計算方式,對第一階段的得分進行數值轉換,一方面可以進行歸一化,將原始計算分值整理成所有元素權重之和為1的概率分布;另一方面也可以通過SoftMax的內在機制更加突出重要元素的權重。即一般採用的公式如下:
第三階段的計算結果 即為 對應的權重系數,然後進行加權求和即可得到Attention數值:
通過如上三個階段的計算,就可以求出針對Query的Attention數值。
上面介紹的是soft Attention,hard Attention的區別在於soft Attention中 是概率分布,而hard Attention取值為0/1。Hard Attention在圖像上有使用,具體可見 引入attention機制 。
這里的global attention其實就是soft Attention,global attention需要考慮encoder中所有的 ;而local Attention直觀上理解是只考慮局部的 。
Self-attention是Google在transformer模型中提出的,上面介紹的都是一般情況下Attention發生在Target元素Query和Source中所有元素之間。而Self Attention,指的是Source內部元素之間或者Target內部元素之間發生的Attention機制,也可以理解為Target=Source這種特殊情況下的注意力機制。當然,具體的計算過程仍然是一樣的,只是計算對象發生了變化而已。
上面內容也有說到,一般情況下Attention本質上是Target和Source之間的一種單詞對齊機制。那麼如果是Self Attention機制,到底學的是哪些規律或者抽取了哪些特徵呢?或者說引入Self Attention有什麼增益或者好處呢?仍然以機器翻譯為例來說明,如圖8和圖9:
具體做法是點乘 和 ,然後除以 ,並經過Softmax,以此得到 的權重。也就是說Attention計算過程如下式,其中 是scaled factor:
注意力的計算一般有兩種:加性注意力(additive attention)、乘法(點積)注意力(multiplicative attention)。(這里可以和第3部分計算相似度對應)
加性注意力是最經典的注意力機制,它使用了有一個隱藏層的前饋網路(全連接)來計算注意力; 乘法注意力就是Transformer用的方式。這兩種注意力在復雜度上是相似的,但是乘法注意力在實踐中要更快速、具有高效的存儲,因為它可以使用矩陣操作更高效地實現。
Transformer原文:
Multi-Head Attention是用不同的 得到不同的Attention,最後將這些Attention拼接起來作為輸出。公式如下:
其中, ;在Transformer模型中, 。
Scaled Dot-Proct Attention和Multi-Attention如下圖所示:
㈨ 基於注意力機制的超解析度簡述
2018年提出的EDSR已經使得超解析度方法有了很好的處理效果,近幾年在超解析度領域沒有出現極具創新性的網路模型, 大多數都是在EDSR等經典超解析度模型的基礎上,針對模型存在的不足進行一定程度的創新 。
例如,為解決放大尺度單一的問題,Hu等人提出了Meta-SR模型,該模型能夠以任意放大尺度對圖像進行變換,且能連續放大圖像。Menon等人提出了一種將生成的高解析度圖像降采樣後與低解析度圖像匹配以確定高解析度圖像的方法。為避免卷積中的乘法運算,Song等人提出了加法網路(AdderNet)來解決超解析度問題。
另一方面,目前注意力(Attention)機制在計算機視覺上的應用,使得網路能夠具有更好的性能。自然地,在圖像超解析度領吵蔽域,基於注意力機制的模型也取得了較EDSR明顯的提升。自2018年以來,基於注意力機制的方法帶給該領域更多的可能。
注意力機制首先應用於NLP領域,取得了很好的成績,並廣泛應用。對於CV領域的注意力機制,本質與NLP領域的注意力機制是相同的,但實現方法是有本質不同的,畢竟NLP研究的是文本,而CV則是圖像、視頻等。在CV領域經典的注意力機制包括 通道注意力(Channel Attention,CA)和空間注意力(Spatial Attention,SA),這兩種注意力可以單獨使用,也可同時使用(串列或並行) 。其中,通道注意力關注的是 不同通道的特徵 對於重建圖像的貢獻度,而空間注意力則是關注同一通道下, 不同像素區域的特徵 對於重建圖像的貢獻度。
在計算機視覺的各個子領域都可以嘗試添加註意力模塊,以增強原有模型的性能。如在圖像分類領域,有CBAM模型;還有很多學者專注於研究注意力模塊的實現,而baseline選擇ResNet,有EPSANet模型,SA-Net模型等。大量的注意力模塊的研究都是基於高階(high-level)的視覺問題,因此在超解析度這樣的低階(low-level)問題上則有一定的差異,即同一注意力模塊在低/高階問題上的表現可能是有一定差異的。原因在於,高階問題關注於圖像的語義,而低階問題則是關注圖像中的各個像素值。因此,同樣的注升李州意力模塊在不同的問題上的表現是值得嘗試的。
2018年,第一個基於注意力機制的超解析度模型RCAN發表於ECCV,該模型的使用的注意力機制與SENet無異,其貢獻主要在於擾激將注意力機制應用於超解析度中,並用注意力的方式解釋該方法。RCAN中僅使用了通道注意力(Channel Attention,CA)作為該模型的注意力模塊,其餘部分與EDSR相同。而從結果可以看出, 一個簡單的通道注意力的加持,使得該模型較EDSR模型有0.1~0.4 dB以上的提升 。證明了注意力機制能夠給超解析度方法帶來顯著的提升,故此後有越來越多的文章研究基於注意力機制的超解析度方法。
2019年的SAN模型,2020年的HAN模型,2021年的CRAN模型等等都進一步拓展注意力的實現方式,大部分學者都致力於研究一個 更復雜的注意力機制 ,使得在PSNR、SSIM等指標相較原有的SOTA模型有些許提升。然而隨著注意力方法變得越來越復雜,帶來的後果就是對硬體要求越來越高,計算量越來越大。鑒於這種背景,也有一部分學者致力於 研究輕量型的網路 ,保證在網路訓練時間短的情況下,具有不差的表現,例如2020年的PAN模型和2021年的A²N模型,這些模型的表現略低於EDSR,但在參數量、訓練時間方面,卻遠優於目前提出的絕大部分模型。
目前注意力機制在超解析度方法上的困境在於,近幾年復雜的注意力模塊所取得的效果與RCAN的效果相差不大,基本都在0.1 dB以內,而其計算量和復雜程度則是肉眼可見的上升。傳統的通道注意力和空間注意力已經滿足不了更高性能的網路表現,為進一步提高網路表現,近幾年提出了Pixel Attention,Sparse Attention等新的注意力機制,運用其他交叉學科的知識改進現有的注意力機制,如CRAN、DFSA、EACRN等。 這些新穎的注意力機制確實能賦予超解析度方法更好的性能,但是卻存在較大的邊際效益。
相關文獻
[1] RCAN
[2] SAN
[3] HAN
[4] CRAN
[5] PAN
[6] A²N
[7] DFSA
[8] EACRN
㈩ 請在下面這句話中挑出錯誤來(不計較語法錯誤)
在昏暗的光線(環境)下讀書,對視力有害。