[論文要約][] Dynamic Coattention Networks For Question Answering

Source: Deep Learning on Medium


要約

双方向アテンションを利用したエンコーダーと、繰り返し出力をアップデートしていくデコーダーを用いてSQuAD1.0の機械読解タスクでF1値80%を達成した。

先行研究との違い

  • 答えの範囲の予測を一回でなく、複数回行うようにモデリングした

研究の肝となる部分

  • 質問文と参照ドキュメントの両方に、双方向アテンションを設定する
  • LSTMにコンテキストベクトルを次々に入力し、各ステップでスタートとエンドのポジションを推定する。各ステップでは以前のステップの推論結果も参考に推定を行う
  • 学習時は各ステップの予測結果全てに対してロスを計算する

検証方法

  • 大規模で質の良いデータセットで、問題文の答えの範囲を指定することで答えとするSQuADで既存手法と比較

議論

  • シングルモデルで76%のF1値を達成。アンサンブルだと、80%のF1値を達成した
  • デコーダーのHMN層を深くするとF1値が1ポイントほど改善した。また、デコーダーを他のエンコーダーと組み合わせた場合、提案したエンコーダーより1–2ポイントF1値が落ちた
  • 入力のドキュメントが長ければ長いほど精度が落ちることが想定されるが、アテンションが功を奏してドキュメントの長さと精度の間には相関は見られなかった

感想

  • マルチステップでアップデートしていくことで、各ステップのコンテキストベクトルそれぞれに答えに関する情報が格納されるようにしつつ、上手く最終的な答えにたどり着くようになっているモデル