アノテーションの補助・自動化をするPolygon RNN, Polygon RNN++

Source: Deep Learning on Medium

Polygon RNN++の概要

Polygon RNN++は、David Acuna等によってpolygon RNNをベースに改良したもので、2018年に提案された。Polygon RNN++では、『IOUをRewardとして強化学習を用いて最大化する(正解データとの正解不正解で評価しない)』『Graph Neural Networksを使って高解像度化を諮る。』という戦略で先述の問題に対処している。

強化学習でIoUを最大化する

Polygon RNNのように頂点を分類問題をといてネットワークを学習した後に、それを初期値として強化学習でfine-tuningする。

まず、ネットワークのパラメータをPolicyとして扱い、IOUを強化学習で最大化することを考える。そのため、IoUの符号を変えた損失関数を考える。

しかし、IoUは微分できないので、REINFORCE trick(Williams et al.(1992))を使い、勾配の期待値を計算する。rはReward(今回はIoU)、pはpolicy(今回はネットワークのパラメータ)である。

このままでも良いが、この定式化ではpolicyが不安定であるため学習が安定していないことが知られている。そのため、 self critical method (Rennie et al.(2017)を使い、以下のようにベースラインを設けて定式化する。ベースラインには前回の最大Rewardが用いられ、改善すれば(Rewardが前回の最大Rewardより大きい)ならカッコ内が正の値を取り、改善がなければゼロ以下の値をとるようになり、学習が安定する。

Evaluator Network

IoUを評価するEvaluator Networkというものを作る。Evaluator Networkは『CNNの出力』『RNNの隠れ層状態』『予測多角形(物体領域)』の3つを入力として、IOUを予測するネットワークを学習する。

この推論時に複数の初期頂点候補から、それに対応する予測物体領域を算出し、このネットワークでIOUを評価→最大のものを選択する。

このネットワークはRLを使ったEncoder/Decoder学習時には使わないことに注意する。Evaluator NetworkはRL学習が収束した後に学習させ、推論時の初期頂点候補の選択時に活躍する。

Gated Graph Neural Networks

Gated Graph Neural Networks(Li et al.(2015))という時系列系のGraph Neural Networksに、中点を追加した多角形を入力。どちらに向かって動かすかという分類問題として解く

Encoderの変更

EncoderをVGGからResNetに変え、より良質な特徴量をとってくるようにしている。

Polygon RNN++の結果

先行研究のPolygon RNNと比べると出力頂点の解像度が高くなったため、精緻なアノテーションができている。

定量的に見ても、既存手法のどれと比べてもあらゆる物体で精緻なアノテーションをしている。また、RL, Evaluator Network , Gated Graph Neural Networkそれぞれの導入が効果を上げていることがわかる。

まとめ

今回のブログでは、領域区分(semantic segmentation)を自動化/半自動化するPolygon RNN, Polygon RNN++を紹介した。両者ともに、アノテーションを頂点を出力する問題として捉え、時系列的に頂点を逐次出力することを特徴としている。

アノテーションを効率よく作ることは、機械学習の活用を広げる上で非常に重要なので、このような研究は大きな意義を感じる。

Twitter account

Reference

  • L. Castrejon et al. Annotating object instances with a polygon-rnn.
  • D. Acuna et al. Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++
  • R. J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning
  • S. J. Rennie et al. Self-critical sequence training for image captioning