共著の論文が論文賞をもらいました

3月の言語処理学会で、共著の論文に論文賞をいただきました。ありがとうございました。

  • 今村賢治, 齋藤邦子, 貞光九月, 西川仁. 小規模誤りデータからの日本語学習者作文の助詞誤り訂正. 自然言語処理, 19(5):381-400, 2012.

まだ J-STAGE では公開されていないようですが、近く公開されるはずです。

さて、この内容ですが、日本語学習者が書く作文には頻繁に助詞の誤り(いわゆる「てにをは」)が存在するため、これを機械で修正するものです。この論文の特徴は3つあります:

  1. 句に基づく統計的機械翻訳の部分集合( reordering がない)の枠組で誤った助詞を修正
  2. データスパースネスに対しては擬似的な正例を生成して対処
  3. 本来の正例と擬似的な正例の性質の違いは分野適応を利用して吸収

私の貢献はこの3番めの分野適応のところにあります。貢献といっても大したものではなく、単に主著者がこの研究を進めていたときに、たまたま西川は要約の分野適応の研究をしていたのでした。自動要約においても参照要約を教師事例として利用することが一般的となっていますが、この参照要約というのは作成になかなか費用を要するものです。その上、要約の対象となる分野毎に参照要約を用意しなければならず、要約の対象となる文書が多岐にわたる場合、費用が馬鹿にならないのでした。1つの解決方法は分野適応を利用して異なる分野の参照要約も利用することで、要約対象の分野の参照要約が少量であっても、その分野の参照要約だけを利用するよりも良好なパラメータを得ることができます。ご興味のある方は以下の文献もどうぞ:

これを敷衍し、擬似的な誤りを異なる分野の教師事例とみなして分野適応を行うことで、助詞誤り訂正においてより良好なパラメータが得られることが期待できる、という塩梅です。

今回、主著者の発表をききながら、以下のようなことをぼんやりと考えていました:

  • 研究所という形態にはそれなりに意味があるのだろうということ。日本語助詞誤り訂正のような応用性の高いものは実際に事業をやっている部署で開発してもよいものだとは思いつつも、自然言語処理を専門とする技術者が集まっているところで作ることによって今回のような付加価値が生まれたということは否定できず、やはり専門家を1カ所に集約しておくことによって生まれる価値、相乗効果というものは相当にあるのだろう。少々誇大だとは思うものの、そのとき西川がその場にいなければ分野適応という発想まで到達していなかったかもしれないだろうと。
  • 時の運というものがやはりある。上に述べた1番めの PBSMT の部分集合となっている機械だが、これは品詞(形態素)体系を変換するという研究(2011年の Interspeech の予稿集に予稿があるはず)が行われていたときに作られたもので、こういった機械を作ったばかりだったので研究の道具立てがほとんど揃っていた。実用においては異なる品詞体系を横断して自然言語処理を行わないといけないことが稀にあり、そのため品詞列を PBSMT を通じて変換するという装置を用意したのだが、この変換は reordering のない PBSMT とみなすことができ、これはそのまま日本語助詞誤り訂正に利用できる(その意味では reordering を含む本来の PBSMT は、問題設定によるものの、日本語助詞誤り訂正には対しては少し大げさな機械になっている)。

後者のような運はどうしようもないものの、前者はある程度意図的に周囲に対して働きかけることができるものだと思います。自分自身、良い研究を進めつつ、あわせて周りを刺激していくことができれば、と改めて思いました。