[offconvex和訳]Understanding implicit regularization in deep learning by analyzing trajectories of…

Original article was published on Deep Learning on Medium

Do the Trajectories Minimize Some Regularized Objective?

近年、研究者は最適化アルゴリズムの選択によって引き起こされる暗黙的正則化の重要性に気づくようになりました。従来の最適化に対する考え方(Sanjeev氏の投稿を参照 / 日本語版)に引っ張られ、この分野のほとんどの論文では、この効果を目的関数の正則化で捉えようとしています。

例えば、線形モデル、すなわち深さ1のネットワークに対して、勾配降下法は最小のフロベニウスノルムを持つ解を見つけることが知られています(Zhang+ 2017のセクション5参照)。また、一般的な仮説として、先ほど述べた事実は、より手の込んだニューラルネットワークにおいても持続し、フロベニウスノルムはネットワークアーキテクチャに依存する他のノルム(または準ノルム)に置き換えられる可能性もあります。

Conjecture (by Gunasekar+ 2017, informally stated): 勾配降下法(学習率が小さく、初期化がほぼゼロの場合)が行列分解(matrix factorization)を学習すると、最小の核ノルムを持つ解が得られる。

このConjectureは,勾配降下法によって学習された行列分解(2層のLNNにおけるmatrix factorization)が,有名な核ノルム最小化と等価であることを本質的に示しています。Gunasekar+ 2017は、(非常に)制限された設定における証明の形での数学的証拠といくつかの経験的証拠を用いてこのConjectureを動機づけました。

行列分解(matrix factorization)に深さを加えることで行列補完の結果が改善されるという経験的観測を考えると、Gunasekar+ 2017の仮定を拡張し、深さ3以上の暗黙的正則化は、核ノルムを用いるよりも良くランクを近似する事のできる他のノルム(または準ノルム)を最小化することに相当すると主張するのは自然なことでしょう。例a href=”https://en.wikipedia.org/wiki/Schatten_norm” class=”bx fe hv hw hx hy” target=”_blank” rel=”noopener nofollow”>Schatten-p 準ノルムがあります。

Sanjeev Arora+ 2019はこのアプローチから始まりましたが、最終的には、「ノルム最小化としての暗黙的正則化」というConjecture全体、特にGunasekar+ 2017Conjectureに懐疑的になりました。

定理(このConjectureに対する数学的証拠): Gunasekar+ 2017が証明したのと同じ制限された設定では、核ノルムは深さ2だけでなく、任意の深さ(≧3)でも行列分解(matrix factorization)における勾配降下法によって最小化されます。

この定理は、deep matrix factorizationにおける暗黙的正則化としてのSchatten-p 準ノルムを無効にし、代わりに、すべての深さにおいて核ノルムが対応することを示唆しています。しかし、経験的には、深さの違いによって性能に顕著な差があることがわかったので、Gunasekar+ 2017が行ったように、制限された設定での証明から一般的なConjectureへと概念的に飛躍することには疑問があるように思われます。

Sanjeev Arora+ 2019では、この経験的なConjectureを評価するために、体系的な実験を行いました。核ノルム最小化がsuboptimalの領域(観測された成分が少ない)では、行列分解(matrix factorization)が一貫してそれを上回ることがわかりました(Table 1参照)。つまり、Conjectureにおける予測とは対照的に特に深さ2の場合には、保持されています。加えてSanjeev Arora+ 2019の理論と実験は、LNNにおける暗黙的正則化を単一のノルム(または準ノルム)で捉えることは不可能かもしれないと考えることができます。

「norm最小化としての暗黙的正則化」に関する結果の詳細は、Sanjeev Arora+ 2019の第2節に記載されています。この論文の第3節では、先に議論したtrajectoryの解析を紹介しています。