情報処理学会第204回自然言語処理研究発表会に参加してきました

2011年11月21日(月)、22日(火)に石垣島で開催されました情報処理学会第24回自然言語処理研究発表会(長い)に参加してきました。この研究会と言うものについて説明しておきます。情報処理学会のような大規模な学会になると、対象とする学術分野が非常に幅広くなるため、もう少し細かい粒度の組織が内部に設定されることがあります(Special Interest Group (SIG) と言ったりします*1)。情報処理学会ではそれを研究会と読んでいます。情報処理学会には自然言語処理を扱う研究会として名前もそのままに自然言語処理研究会があります。自然言語処理研究会は年に6回、奇数月に研究発表会を開催しており、今年最後の研究発表会が石垣島で催された、というわけです。

さて、当然、西川も発表をしてきました。

転移学習による抽出型要約の精度向上(西川仁、牧野俊朗、松尾義博)

原稿はこちら

文書を計算機によって要約させる技術を西川は商っています。計算機に文書を要約させる基本的なアプローチは、要約の対象となる入力文書を文に分解し、それらの文の集合の中から制限サイズに収まる部分集合を選び出す、というものです。無数にある(入力に対して指数的な部分集合が存在します)部分集合の中から一番よいものを選びだすために、即ち要約のよしあしを判断するために、一つ一つの部分集合に対してスコアを与える関数(目的関数)を定義します。

目的関数を構成するパラメタを推定するために、近年では教師あり学習が利用されます。学習の際には、当然、実際に要約の対象とする文書と似た訓練事例からパラメタを推定しないといけません。例えば経済に関する記事を要約する際には、経済に関する記事とその要約からパラメタを推定する、といった具合です。しかし、現実的には、政治に関する記事を要約したいが、手元には政治に関する記事の訓練事例はあまりなく、経済に関する記事の訓練事例がたくさんある、といったことがよくあります。そのような時に用いられるのが転移学習(ドメイン適応と言う言い方もします)で、別の分野(ドメインという言い方をします)の訓練事例も利用して学習を行う技術です。

今回の発表では要約器のパラメタ推定に転移学習を導入し、その結果を報告しました。上に述べたように、実用上は非常に重要な技術で、今回何はともあれ着手することができて良かったと思っています。

聞いた発表で、特に面白かったものを一つご紹介します。

アスペクト被覆を可能にした最小値最大化問題に基づく文書要約モデル(牧野拓哉、高村大也、奥村学)

オペレーションズ・リサーチの分野には最小値最大化問題と呼ばれる問題があり、それを文書要約に応用したもの。最小値最大化問題について簡単に説明します。飲み会の清算を例にしましょう。課長、係長、社員の三名で飲み会があり(嫌な会ですが……)、後日清算を行うことになったとします。一応立場がありますから、支払額は課長>係長>社員の順にしたいのですが、課長、係長は吝嗇で知られており、残念ながらできるだけ三名の支払額を平等にしなければなりません。このときに取ることができる一つの方策は、支払額が課長>係長>社員となる制約の下で、社員が支払う額を最大化することです。すなわち最小値を最大化すると、この三名の支払い額は非常に近い値になるわけですね(もちろん、細かい値になると怒られるかもしれませんから、他に、100円で割れる数、といった制約を加えた方がいいでしょう)。

このようなモデルで文書要約を行うと、要約に格納したい情報の種類が複数あったときに、それらを比較的平等に要約に含めることができます。非常に面白い着眼点と思いました。

おまけ

ちょっと時間を見つけて、川平湾に行ってきました。

短い時間ですが、東シナ海の波に洗われて、リフレッシュしました。

たまには遠出もいいものですね。

*1:他の例としてACLSIGDAT(EMNLPを主催)やSIGDIAL(SIGDIALを主催)、ACMSIGIR(SIGIRを主催)があります。