言語処理学会第17回年次大会に参加してきました

さて、ドタバタ続きで少々遅くなってしまいましたが、ちゃんと仕事の話も書きたいと思います。言語処理学会第17回年次大会(NLP2011)に参加してきました。

P1-15 文外照応を含む文の検出による抽出型要約の品質向上
○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎

いわゆる重要文抽出に基づく要約を行う際に、同一文中に先行詞を含まない照応詞(文外照応)が要約の中に含まれる場合、著しく要約の品質が損なわれるという問題があります。そのため、文外照応を含む文はその一つ前の文と連結させることによって、先行詞が要約中に含まれる可能性を僅かでも削減しようとするものです。

正攻法としては、1)照応解析器を使って代名詞の類を置換し、2)述語項構造解析器を使って省略されている要素を補う、ということになるかと思います。一方、本研究を進めるにあたっては、以下のような外的な制約がありました。

  1. 実用上の理由から、浅い解析に基づく特徴量しか使えない
  2. (特に1番目の制約下において)現時点での照応解析技術の精度が必ずしも十分でない
  3. 解析に失敗した場合、元々の文意と異なる文が生成される恐れがあり、そこに商業上のリスクがある

そのため、上述の正攻法を取ることができず、今回お話させていただいたアプローチを取ることになりました。文外照応を含むと予測された文を要約器の入力から除外することもできましたが、その場合今度は要約器に対して十分な入力を供給できなくなる恐れがありました。

本件、なかなか時間的制約が厳しく難儀しましたが、時間内に上の条件を満たす最良の解を見つける問題解決の実践として、辛いながらも、個人的には楽しんでやっていました。まあ、喉元過ぎれば何とやらではありますが……。

いわゆる純粋な研究の場合だと上述の1のような条件はあまり設定されませんし、また例えば一週間で一定の性能を持った機械を無理矢理でっちあげなければならないということも然程多くないと思います。ですので、今回こういった仕事ができたのはずいぶん良い経験になりました。加えてワークショップ「自然言語処理における企業と大学と学生の関係」も開催され、言語処理の応用について広く議論される中でお話が出来たのは幸運でした。お聞きくださった皆様も「解析に失敗し元々の文意と異なる文が生成されることのリスク」あたりを面白がってくださり、生々しい制約が課せられた言語処理タスクの面白さをお伝え出来たかなと思っています。