[論文要約][AAAI 2018] Complex Sequential Question Answering: Towards Learning to Converse Over Linked…

Source: Deep Learning on Medium SHIMABUKURO Katsuya Mar 25 論文URL:https://arxiv.org/abs/1801.10314 要約 複雑なKBからの推論、数ターンのコンテキストの維持が必要な大規模な質問応答データセットを作成。既存の手法では15%ほどしか正解できず、特に統計(カウントなど)や比較が必要な質問の正答率が低くなることを示した 先行研究との違い 対話のデータセットは他にもあるが、提案データセットは様々なコンテキストの保持が必要で、参照解析が要り、多義性の解釈を修正する必要もある QAを扱うデータセットもあるが、それらは質問文そのものはシンプルで、比較や計数などの複数のトリプルをまたぐようなKBからの情報抽出は必要ない いくつかマルチターンでKBやDBを参照して対話を行うデータセットが提案されているが、規模が小さかった 研究の肝となる部分 Wikipediaのダンプファイルを元に、12.8Mのエンティティー、5.2Kのリレーション、52.3Mのタプルを持つKBを構築した 質問に含めてほしい情報と、参照するトリプルを与え、オブジェクトに関する質問とサブジェクトに関する質問をアノテーターに作成してもらい、別のアノテーターにその言い換え表現を作成してもらうことで、それぞれに対する質問のテンプレートを1500パターン作成した そのテンプレートを元に、答えのエンティティーのタイプごとに利用できるテンプレートを仕分けて半自動でタプルに関するシンプルな質問を生成した 複雑な質問として複数種類の質問テンプレートを用意した ロジカル:答えが複数あるもの、検索対象が複数あるもの、片方にあって片方にないものを聞く質問、副問合せのような質問が必要なもの ベリフィケーション:Yes/No で答えるような質問 計数:カウント、Min/Max、その他の統計量に関する質問

Read more