NAS-FPN 論文翻譯

Source: Deep Learning on Medium


Introduction

讓電腦如何學習視覺特徵是一個基礎的電腦視覺問題。在過去幾年裡,我們在設計網路結構中利用 deep convolutional networks(ConvNets) 在 image classification(圖像分類) 與 objection detection(物件識別) 的項目中取得很大的進展。有別於圖像分類僅預測圖像為哪種類別的機率,物件辨識在各種尺度、位置上的檢測和定位多個物件方面都有其自身的挑戰。為了解決這個問題,許多現代物件檢測方法普遍使用”the pyramidal feature representations”(金字塔型特徵萃取法)來表示具有多尺度的特徵圖象層。

Feature Pyramid Network(FPN) 是生成用於物件檢測的金字塔型特徵萃取法的代表性模型體系結構之一。FPN採用的backbone model(骨幹模型)通常用於圖像分類,藉由在骨幹模型中按由上而下及橫向的順序組合特徵層次中的兩個相鄰層來建立 feature pyramid(特徵金字塔)取得具有高解釋性但低位置精度的高階特徵,經過 up-sampled(上採樣)和連結其它高位置精度的特徵來產生具有高解釋性及高位置精度的feature representations(特徵)。儘管FPN簡單且有效,但它可能不是一個最佳架構設計。近期PANet(Path aggregation network for instance segmentation)顯示在FPN特徵上額外新增由下而上的路徑可以改善較低位置精度的 feature representation。近期許多研究提出了多種跨尺度連接或操作來連接特徵以產生pyramidal feature representations(金字塔型特徵萃取法)。

設計特徵金字塔結構的挑戰在於其巨大的設計空間。有可能連接特徵組合的數量會隨著層數增加呈指數成長。近期 Neural Architecture Search algorithm 展示了有希望的研究在巨大的空間中有效發現用於圖像分類的頂級架構。為了實現這個研究, Zoph et al. 提出了一種可以重複並堆疊成可擴展架構的模組化架構。啟發於此,我們提出了一種金字塔型的可擴展架構的搜索空間。本論文關鍵的貢獻在於用多尺度特徵設計覆蓋所有可能的跨規模連接搜索空間。研究過程中,我們的目標是發現一種atomic architecture(原子結構),具有相同的輸入和輸出特徵層數並且可以被重複應用。模組化搜索空間使搜索金字塔架構易於管理。模組化金字塔結構的另一個好處是可以隨時物件辨識(anytime object detection)(或是early exist(提早退出))。儘管許多研究已經嘗試手動設計這種提早退出的方法,但考慮到這種約束是非常困難的。

這種模型架構稱為NAS-FPN,為建構物件辨識系統提供了極大的靈活性。NAS-FPN適用於各種骨幹模型,例如MobileNet、ResNet 和 AmoebaNet。NAS-FPN為效率模型及精確模型提供了更好的效率與準確性折衷方法。結合RetinaNet框架中的MobileNetV2骨幹網絡,在相同的推理時間下,它比有MobilenetV2的SSDLite有著2 AP的領先。憑藉強大的AmoebaNet-D骨幹模型,NAS-FPN通過單一測試規模實現了48.3 AP單一模型精度。檢測精度超過Mask RCNN報告的推理時間更短。 我們的結果摘要如圖1所示。

圖1. 手持裝置上精確模型(top)和效率模型(bottom)的每個圖像平均精度和推時間

2. Related Works

2.1 Architecture for Pyramidal Representations

金字塔型特徵萃取法(Feature pyramid representations)是許多電腦視覺應用需要多尺度處理的解決方案的基礎。然而使用深度捲積網路通過對圖像金字塔進行特徵化來生成金字塔型會帶來很大的計算負擔。為了解決這個問題,最近關於人體姿態估計、圖像估計和物件辨識的研究在深度捲積網路中引入了跨尺度連接,連接著不同尺度的內部特徵圖層。這種連接有效地增強了特徵,使得不僅僅在解釋性上增強,而且還包含高位置精度資訊。許多論文都在研究如何提升多尺度特徵。Liu et.al 提出一種基於FPN由下而上的路徑。近期,Zhao et.al通過在骨幹模型之後使用多個U-shape模組,擴展了建構更強的特徵金字塔的想法。Kong et.al 首先結合所有尺度的特徵,並通過對組合特徵的全局注意操作在每個尺度上生成特徵。儘管他是一個活耀的領域,但與骨幹模型相比,大多數跨規模連接的架構設計仍然很淺。除了手動設計交叉尺度連接之外,提出藉由視覺記數的門控機制和密集標籤預測來學習連接方式。

在我們的研究中,我們使用可伸縮搜索空間的神經架構搜索算法和組合來代替手動設計金字塔的架構,以克服金字塔架構的大型搜索空間。我們限制搜索以找到可以重複應用的架構。因此,該體系結構可用於任何隨時物件辨識(or early exit)。這種模型提前預測的方法與圖像分類有關。

2.2. Neural Architecture Search

我們的論文與神經網路搜索的研究有關。值得注意的是,Zoph et.al 使用RNN控制器(controller recurrent neural network)進行強化學習來設計一個神經元(or 一層),命名為NASNet。此網路在ImageNet上實現了最先進的精度。同樣,演化方法也被用於在NASNet和PNASNet之上的AmoebaNets。由於強化學習和進化控制器的表現同樣出色,本論文僅嘗試使用強化學習控制器。我們的方法有兩點不同於 Neural architecture search with reinforcement learning。(1)我們方法的輸出是多尺度特徵,而另一篇論文的輸出是單尺度特徵。(2)我們的方法專門搜索跨規模連接,而另一篇論文只關注於發現相同特徵位置精度內的連接。 除了圖像分類之外,神經架構搜索還被用於改進圖像分割網路。據我們所知,我們的論文是第一個成功在物件辨識中應用神經結構搜索金字塔結構。有關於神經網路搜索相關方法的更廣泛概述,請參閱Neural Architecture Search: A Survey

3.Method

我們的模型是基於簡單且有效率的Retina framework。Retina framework有兩個主要組成成分:一個骨幹架構(通常是最先進的圖像分類網路)和特徵金字塔網路(FPN)。該算法的目標是為RetinaNet發現更好的FPN架構。圖2顯示RetinaNet結構

圖2:RetinaNet與NAS-FPN。在我們的提案中,特徵金字塔網路將通過神經網路架構搜索算法進行搜索。用於box predictions預測的骨幹模型和子網路遵循RetinaNet中的原始設計。FPN的架構可以堆疊N次以獲得更好的準確率。

為了發現更好的FPN,我們使用了Neural Architecture Search with Reinforcement Learning提出的神經搜索框架。神經架構搜索利用強化學習訓練一個在給定的搜索空間找出最佳模型結構的控制器。控制器利用搜索空間中的子模型的準確率作為更新其參數的獎勵信號。通過控制器,控制器學會了隨著時間的推移產生更好的架構。正如之前的研究已經確定那樣,搜索空間在結構搜索的成功中扮演至關重要的作用。

在下一節中,我們為FPN設計了一個搜索空間,以生成特徵金字塔。對於FPN的可擴展性(使得FPN架構可以在RetinaNet內重複堆疊),在搜索過程中,我們還強制FPN重複N次,然後連接成一個大型架構。我們稱我們的特徵金字塔架構為NAS-FPN。

3.1. Architecture Search Space

在我們的搜索空間中,特徵金字塔網路由許多”merging cells”組合而成,它們將許多輸入層組合成RetinaNet的形式。

Feature Pyramid Network

特徵金字塔網路將多尺度特徵圖層作為輸入,並以相同比例生成輸出特徵圖層,如圖2所示。我們遵循RetinaNet的設計,它使用每組特徵圖層中的最後一層作為第一個金字塔網路的輸入。第一個金字塔網路的輸出是下一個金字塔網路的輸入。我們使用5個等級{C3,C4,C5,C6,C7}作為輸入特徵,具有{8,16,32,64,128}像素的相應特徵間距。通過簡單地將間距2和間距4最大池化應用於C5來創建C6和C7。然後將輸入要素傳遞到金字塔網路,該網路由一系列引入跨規模連接的合併單元組成(見下文)。然後金字塔網路輸出增強的多尺度特徵{P3,P4,P5,P6,P7}。由於金字塔網路的輸入與輸出都是相同比例的特徵層,因此可以重複堆疊FPN的結構以獲得更好的準確率。在第4節中,我們顯示控制金字塔網路的數量是衡量檢測速度和準確性的一種簡單方法。

Merging cell

在先前的研究中的一個重要觀察是有必要以不同的比例”合併”特徵。跨規模連接允許模型將有高解釋性的高度特徵與高位置精度的低度特徵合併。

我們提出”merging cell”,它是FPN的基本建構模組,將任意兩個特徵輸入層合併到特徵輸出層。在我們的實現中,每個”合併神經元”(merging cell)採用兩個特徵輸入層(可以來自不同尺度),應用處理操作然後將它們組合以生成所需比例的一個特徵輸出層。FPN由N個不同的”merging cell”組成,N是在搜索期間給定的。在”merging cell”中,所有特徵層都具有相同數量的捲積核(filter)。建構”merging cell”的過程如圖3所示。

圖3:merging cell 需要4個預測步驟。特徵輸出層將被回推到候選特徵圖層的堆疊中,並可供下一個merging cell 選擇。

如何建構merging cell 由RNN控制器做出選擇。RNN控制器選擇任意兩個候選特徵層和二進制操作以將它們組合成新特徵層,其中所有特徵層可能具有不同的分辨率。每個”merging cell”具有不同的softmax分類器產生的4個預測步驟:

Step 1. 從候選區選擇一個 hᵢ 特徵層

Step 2. 從候選區中選擇另一個無須替換的特徵層hⱼ

Step 3. 選擇特徵輸出分辨率

Step 4. 選擇二進制op以組合在步驟1和步驟2中選擇的hᵢ 和 hⱼ,並生成具有在步驟3中選擇分辨率的特徵層

在第4步驟中,我們在搜索空間中設計了兩個二元運算(sum and global pooling),如圖4所示。選擇這兩個操作是因為它們的簡單性及效率。它們不會額外添加任何可訓練參數。sum operation 普遍用在組合特徵。global pooling operation 的設計靈感來自於 Pyramid attention network for semantic segmentation。我們遵循金字塔注意網絡,僅刪除原始設計中的捲積層。在應用二進制操作之前,如果有需要調整特徵輸入層的輸出分辨率,我們會通過最近鄰居上採樣(nearest neighbor upsampling) 或 最大池化(max pooling)。合併的特徵層後面始終都會有線性整流單元(ReLU)、3×3捲積和批量規範化(batch normalization)圖層。

j 圖4:二進制運算方法

到金字塔網絡的特徵輸入層形成合併神經元(merging cell)輸入候選區的初始列表。在步驟5中,新生成的特徵層被附加到現有輸入候選區的列表,並成為下一個合併單元的新候選區。在架構搜索期間,可以有多個候選特徵共享相同的分辨率。為了減少已發現架構中的計算,我們避免在步驟3中為”中間合併神經元”(intermediate merging cells)選擇步伐(stride)為8的特徵。最終,最後五個合併神經元(merging cell)被設計為特徵金字塔{P3,P4,P5,P6,P7}。輸出特徵級別的順序由控制器預測。然後通過重複步驟1,2,4,生成每個特徵輸出層,直到完全生成特徵輸出金字塔。與 Neural architecture search with reinforcement learning相似,我們將所有尚未連接到任何輸出層的特徵層與具有相應分辨率的輸出層相加。

3.2 Deeply supervised Anytime Object Detection

使用堆疊金字塔網絡擴展NAS-FPN的一個優點是可以在任何給定金字塔網絡的輸出處獲得特徵金字塔。此屬性允許”隨時檢測”(anytime detection),可以再提前退出(early exist)時生成檢測結果。我們可以在所有中間金字塔網絡(intermediate pyramid network)之後附加分類器和 box regression heads,並在Deeply surprised nets下對其進行訓練。在推理期間,模型不需要完成所有金字塔網絡的前向傳遞。相反,它可以停在任何金字塔網絡的輸出並生成檢測結果。當計算資源或延遲是一個問題時,這可能是一個理想的屬性,並提供一個解決方案,可以動態決定分配多少計算資源來生成檢測。在附錄A中,我們顯示NAS-FPN可用於任何時間的檢測。

Appendix A. Anytime Detection

NAS-FPN架構有可能在任何中間金字塔網絡上輸出檢測。我們設計了實驗來比較有任何時間檢測的NAS-FPN與沒有任何時間檢測的NAS-FPN的。我們以不同數量的堆疊金字塔層作為基線對NAS-FPN進行訓練和評估,並將性能與深度監督訓練的模型進行比較,並在早期退出(early exist)時生成檢測。在圖11中,隨時檢測模型的性能接近基線模型,顯示NAS-FPN可用於任何時間檢測的證據。

圖11: 使用R-50 @ 384 NAS-FPN,在有和沒有深度監督的情況下訓練模型的性能。經過深度監督訓練並隨時檢測的模型與沒有深度監督的模型相比具有相似的準確性。

4. Experiments

在本節中,我們首先描述我們的神經架構搜索實驗,以學習RNN控制器來發現NAS-FPN架構。然後我們展示了NAS-FPN適用於不同的骨幹模型和圖像大小。通過更改金字塔網絡中的堆疊層數和特徵維度,可以輕鬆調整NAS-FPN的容量。我們展示如何在實驗中構建準確而快速的架構。

4.1. Implementation Details

我們使用RetinaNet 的開源github進行實驗。模型在TPU上進行訓練,批量處理64個圖像。在訓練期間,我們將[0.8,1.2]之間的隨機比例應用於輸出圖像大小的多尺度訓練。批量標準化層被應用在捲積層之後。 我們使用 α = 0.25 和 γ = 1.5 實現 focal loss。我們使用0.0001的權重衰減(weight decay)和0.9的動量(momentum)。該模型進行50次訓練。初始學習率0.08適用於前30個epochs,並且在30和40個時期衰減0.1。對於DropBlock [9]的實驗,我們使用150個epochs的較長訓練計劃,第一次衰減為120個epochs,第二次衰退為140個epochs。逐步學習速率的計畫會讓我們使用1280×1280的圖像,丟入AmoebaNet骨幹模型訓練時不穩定,因此,我們使用餘弦學習速率計劃。該模型在COCO train2017上進行了培訓,並在COCO val2017上進行了大多數實驗的評估。在表1中,我們報告了test-dev準確度,以與現有方法進行比較。

表1: RetinaNet的性能與NAS-FPN和其他最先進的辨識在test-dev的COCO集上。

4.2. Architecture Search for NAS-FPN

Proxy task

為了加速RNN控制器的訓練,我們使用Learning Transferable Architectures for Scalable Image Recognition,它具有較短的訓練時間並且與實際任務相關。代理任務(Proxy task)可以在搜索期間辨識一個好的FPN架構。我們發現可以簡單地縮短目標任務的訓練並將其用作代理任務。我們訓練代理任務只用了10個epochs,而不是我們用來訓練RetinaNet收斂的50個epochs。為了加速代理任務訓練的時間,我們使用ResNet-10小骨幹模型,輸入的圖片大小為512×512。通過這些減少,我們在TPU上運行代理任務的訓練時間為1小時。我們在代理任務中重複金字塔網絡(pyramid networks)3次。初始學習率0.08適用於前8個epochs,並且在第8個epochs開始以0.1的係數衰減。我們保留從COCO train2017隨機選擇的7392張圖片作為驗證集。我們用它來獲取獎勵。

Controller

Neural architecture search with reinforcement learning相似,我們的控制器是一個遞迴神經網絡(RNN),它使用Proximal Policy Optimization (PPO)算法進行訓練。控制器對具有不同架構的子網絡進行採樣。這些結構使用工作池來訓練代理任務。我們實驗中的工作佇列由100個張量處理單元(TPUs)組成。在held-on validation 上得到物件辨識率的平均精度(AP)被用作更新控制器的獎勵。圖5的左邊顯示了不同迭代訓練的採樣結構的AP。可以看出控制器隨著時間的推移產生了更好的架構。圖5的右邊顯示了採樣架構的總數以及RNN控制器生成的唯一架構的總數。經過約8000步(steps)後,獨特架構的數量趨於一致。在我們的實驗中,我們在RL訓練期間使用來自所有採樣架構的具有最高AP的架構。該架構首先以8000步進行採樣,然後對其進行多次採樣。 圖6顯示了該架構的詳細信息。

圖5: 左邊: RL訓練獎勵。計算獎勵的方式為代理任務上的採樣結構的AP。右邊: 採樣的唯一結構的數量與採樣結構的總數。隨著控制器的收斂,控制器會對更多相同的架構進行採樣。

Discovered feature pyramid architectures

什麼使金字塔結構成為一個好的功能?我們希望通過可視化發現的架構來闡明這個問題。在圖7(b-f),我們繪製的NAS-FPN架構,在RL訓練期間獲得越來越高的獎勵。我們發現RNN控制器可以在早期學習階段快速獲取一些重要的跨尺度連接。舉例來說,它發現高辨識率輸入和輸出特徵層之間的連接,這對於生成用於檢測小對象的高辨識率特徵至關重要。當控制器收斂時,控制器會發現具有自上而下和自下而上連接的架構,這與圖7(a)中的vanilla FPN不同。隨著控制器的收斂,我們還發現了更好的特徵被重複使用。控制器不是從候選池中隨機選擇任何兩個輸入層,而是學習在新生成的層上構建連接以重複使用先前計算的特徵。

4.3. Scalable Feature Pyramid Architecture

在本節中,我們將展示如何通過調整(1)骨幹模型,(2)重複金字塔網絡的數量,以及(3)金字塔網絡中的特徵維度來控制模型容量。我們討論這些調整如何權衡計算時間和速度。我們定義了一個簡單的表示法來表示骨幹模型和NAS-FPN容量。舉例來說,R-50,5 @ 256 表示使用ResNet-50主幹模型的模型,5個堆疊的NAS-FPN金字塔網絡和256個特徵維度。

Stacking pyramid networks

我們的金字塔網絡具有很好的特性,可以通過堆疊多個重複架構將其擴展為更大的架構。在圖8a中,我們顯示堆疊vanilla FPN架構並不總能提高性能,而堆疊NAS-FPN顯著提高了準確性。這個結果突出了我們的搜索算法可以找到很難手動設計的可擴展架構。有趣的是,雖然我們在架構搜索階段只為代理任務應用了3個金字塔網絡,但是應用了多達7個金字塔網絡,性能仍有所提升。

Adopting different backbone architectures

折衷對象檢測結構的準確性和速度的一種常用方法是改變主幹架構。儘管NAS-FPN中的金字塔網絡是通過使用輕量級ResNet-10骨幹架構發現的,但我們表明它可以在不同的骨幹架構中很好地傳輸。圖8b顯示了NAP-FPN在不同的主幹之上的性能,從較輕的體系性能(如 Mobilenet V2)到非常高容量的體系結構(如AmoebaNet-D)。當我們在640×640的圖像尺寸上應用具有MobilenetV2的NAS-FPN時,我們得到36.6 AP和160B FLOP。使用AmoebaNet 最先進的圖像分類架構作為主幹將FLOP增加到390B,但也增加了大約5個AP。具有輕量型和大型骨幹架構的NAS-FPN受益於堆疊更多金字塔網絡。

圖6: NAS-FPN中發現的7個合併單元金字塔網絡的結構,具有5個輸入層(黃色)和5個輸出特徵層(藍色)。GP和R-C-B分別代表Global Pooling和ReLU-Conv-BatchNorm。
圖7: NAS-FPN架構圖。每個點代表一個特徵層。同一行中的特徵層具有相同的辨識率。辨識率在自下而上的方向上降低。箭頭表示內部層之間的連接。構造圖形使得輸入層在左側。綠色圓圈為金字塔網絡的輸入,紅色圓圈為輸出。(a)FPN的基本標準。(b-f)神經架構搜索通過RNN控制器的訓練發現了7-cell NAS-FPN架構。隨著代理任務的獎勵(AP)逐漸改善,發現的體系結構趨同。(f)我們在實驗中使用的最終NAS-FPN。

Adjusting feature dimension of feature pyramid networks

增加模型容量的另一種方法是增加NAS-FPN中特徵層的特徵維度。圖8c 顯示了具有ResNet-50骨幹架構的NAS-FPN中128,256,384特徵維度的結果。不意外,增加特徵維度可以提高檢測性能,但它可能不是提高性能的有效方法。在圖8c中,R-50 7 @ 256具有較少的FLOPs,卻與 R-50 3 @ 384有著相似的AP。增加特徵維度需要模型正則化技術,在第4.4節,我們討論使用DropBlock來規範模型。

Architectures for high detection accuracy

通過可擴展的NAS-FPN架構,我們將討論如何構建一個準確模型,同時保持高效。在圖9a中,我們首先表明NAS-FPN R-50 5 @ 256模型具有與R-101 FPN基礎模型相當的FLOPs但具有2.5 AP增益。這表明使用NAS-FPN比用更高容量的模型替換骨幹模型更有效。為了獲得更高精度的模型,可以使用更大的骨架模型或更高的特徵維度。圖9a顯示出了與現有方法相比,NAS-FPN架構在左上部分的精度與推理時間的關係。NAS-FPN與最先進的Mask R-CNN模型一樣精確,計算時間更短。

圖8:NAS-FPN的模型容量可以通過(a)堆疊金字塔網絡,(b)改變骨乾架構,以及(c)增加金字塔網絡中的特徵維度來控制。所有模型均在640×640的圖像尺寸上進行訓練/測試。圓圈上方的數字表示NAS-FPN中金字塔網絡的數量。
圖9:檢測推理時間(左),FLOPs(中)和參數(右)的準確度。(a)我們與其他高準確度模型進行比較。所有模型的推理時間都在具有P100 GPU的機器上計算。綠色曲線突出顯示具有不同骨幹架構的NAS-FPN的結果。圓圈上方的數字表示NAS-FPN中金字塔網絡的重複次數。每個數據點旁邊都提到了NAS-FPN / FPN的特徵尺寸和輸入圖像尺寸。(b)我們與其他快速模型進行比較。所有模型的輸入圖像尺寸為320×320,推理時間在Pixel 1 CPU上計算。我們的模型使用MobileNetV2的輕量級模型進行訓練。

Architectures for fast inference

設計具有低延遲和有限計算預算的物件辨識器是一個活躍的研究課題。在這裡,我們介紹NAS-FPNLite用於mobile object detection。NASFPNLite和NAS-FPN的主要區別在於我們搜索具有從P3到P6的輸出的金字塔網絡。我們也遵循SSDLite,並用NAS-FPN中的深度可分離捲積替換捲積。我們發現了一種15-cell 結構,它可以產生良好的性能並在我們的實驗中使用它。我們在RetinaNet框架中結合了NAS-FPN Lite和MobileNet V2。為了公平比較,我們創建了一個FPNLite基礎模型,該基礎模型遵循原始FPN結構並用深度可分離卷積替換所有捲積層。在圖9b中,我們將NAS-FPN的特徵維度控制為48或64,以便它在Pixel 1上具有類似的FLOPs和CPU運行時作為基礎,並顯示NAS-FPNLite優於SSDLite和FPNLite。

4.4. Further Improvements with DropBlock

由於NAS-FPN架構中引入的新層數量增加,因此需要進行適當的模型正則化以防止過度擬合。按照DropBlock: A regularization method for convolutional networks中的技術,我們在NAS-FPN層中的批量標準化層之後應用塊大小為3×3的DropBlock。圖10顯示DropBlock提高了NAS-FPN的性能。特別是,對於具有更多新引入的過濾器(filters)的架構,它進一步提高其性能。請注意,默認情況下,我們不會在之前的實驗中應用DropBlock,以便與現有作品進行公平比較。

圖10: NAS-FPN的特徵尺寸為256或384在訓練時的性能比較與使用和不使用DropBlock(DB)。使用ResNet-50圖像大小為1024×1024的主幹模型。當我們增加金字塔網絡中的特徵維度時,添加DropBlock更為重要。

5. Conclusion

在本文中,我們提出使用神經架構搜索來進一步優化用於物件辨識的特徵金字塔網絡的設計過程。我們在COCO數據集上的實驗表明,NAS-FPN具有靈活性和高性能,可用於構建精確的檢測模型。在廣泛的準確性和速度權衡中,NAS-FPN在許多骨幹架構上產生了顯著的改進。