Deep Learning Notes — CNN Models AlexNet

為了7月的Faster R-CNN報告,最近開始K一波論文,順便寫點筆記。 2. 泛化機器視覺辨識系統起飛 — AlexNet AlexNet可說是近年來深度學習在機器視覺領域的第一棒起跑者,該paper引入了好幾個超乎當時人們想像的運算機制。如果有誰說工程師只需要把編程背好就好了,我會建議他好好閱讀一下該篇論文。 <i> ReLU nonlinearity 以往在執行模型的非線性激活時,會考慮採用的大部分是sigmoid或tanh(對這些函數在幹嘛不清楚的請詳reference,在此不再贅述)。但在大型深度學習網路架構下,激活函數的學習成本非常高,而且在進到深層時容易發生因梯度消失或梯度爆炸產生的資料漏失問題。因此該論文引進了Rectified Linear Units,也就是ReLU來作為非線性激活函數。運作方式如下: 這樣做的好處首先就是藉由把小於0的數值強制歸零一定程度上避免了梯度消失的問題且兼顧非線性。另外就是反向傳播的學習真的非.常.簡.單,可以大幅加快運算速度。 <ii> overlapping pooling layers 有別於LeNet在sub-sampling layer是用non-overlapping且使用trainable coefficient & trainable bias(所以該層才會有要學習的參數,不要再相信沒有根據的average pooling說法了),AlexNet採用overlapping max pooling來替代原本的sub-sampling

Read more