テキストに書かれている大切なこととは

先々週の言語処理学会の懇親会で「あまりにもブログを更新しなさすぎでは?」というお言葉をいただき,確かにそうかな,と思い,最近ちょっと考えていることでも書いておこうと思います.

自然言語処理において自動要約を独特のものにしているのは,機械にある種の価値判断を強いる点です.自動要約には,首尾一貫したテキストを生成するという課題とともに,入力文書中に含まれる重要な情報を同定する(内容選択)という課題があります.これは非常に独特なもので,例えば機械翻訳は入力されたテキストに含まれる情報を異なる言語のテキストの上において再現するもので,機械に情報を取捨選択させるということはしません.自然言語解析の種々の技術も同様です.自然言語処理のほとんどの処理では入出力の(意味的)等価性が保たれますが,自動要約においては入出力の等価性が保たれることはあまり期待されません.自動要約は価値判断を機械に強いるわけです.

この点に意識的な方は実は自動要約の研究者でもさほどいないのではないのだろうかと思われますが,自動要約の本質的な難しさの1つはこの点にあります.つまり,ある状況におけるある読み手のためにある文書(あるいは文書群)を要約しなければならないわけですが,そのためには状況と読み手と文書を理解しなければいけないわけです.これは難しい問題です.企業にて研究開発,実用化に携わっていると,実に様々な文書に対して要約を行う機会があるのですが,この状況,読み手,文書の組み合わせは無数にあり,ある特定の組み合わせにおける重要な情報を捉えるため,組み合わせ毎に作戦を変えなければいけません.もちろん,捨象できるものは捨象し,単純化された,問題特有の構造を取り出して課題として成立させるわけですが,その結果として立ち現れる課題は特殊性が強く,そのためにこういった組み合わせに対して横断的に,頑健に使える内容選択の特徴量というものはほとんど単語の入力文書における出現頻度くらいしかありません.

そもそも,これは自動要約の研究を始めたときに最初に直面した悩みでしたが,重要な情報を判断させる,という課題が自然言語処理の範疇にあるかというと,個人的にはそうは思えません*1.そういったことから,私のこれまでの立場は「何が重要かは入力や読み手によって変わってしまうので,参照要約(人間が作成した要約)から学習する他ない」というものでした.換言すると,首尾一貫したテキストを生成するという課題は自然言語処理の範疇に入るけれども,何が重要な情報かを同定する課題は自然言語処理の範疇ではなく,情報の検索や推薦の範疇と考え*2,割り切って問題に取り組んでいました.

しかし,どうも,この頃立て続けにこの内容選択に関して考えさせられる機会があり,やはりこれは本質的な課題から逃げているのではないだろうか,とここしばらく思うようになってきました.昨年9月の自然言語処理研究会での講演の際に頂戴した質問のうち印象に残っているものの1つは,重要文選択に用いられる特徴量に50年前から進歩はないのか,というもので,上で述べたように,広く使える特徴量は実際,自動要約研究の黎明期に開発されたような非常に単純なものしかないわけです.こういったご質問に対しては,上に述べましたように,要約の対象となる文書毎に性質が異なるため,それらに合わせて特徴量を設定する,などと適当にその場を取り繕うのですが,やはり質疑が終わり壇上から降りたときに残る気持ち悪さは拭いさることができず,こうして筆を執っているわけです.もう少し横断的に使える特徴量はないものかと.

さて,どうするべきか,というところですが,おそらく,こうした問題に対しては今のボトム・アップ的な方法から一度離れ,ある程度トップ・ダウンな人間の情報選好モデル*3といったものを考えて,そこから分野・ユーザ横断的な内容選択モデルを導く*4といったことをしないといけないのではないかと思います.こういったモデルを構築する手がかりはおそらく自然言語処理の分野にはなく,他の領域にあると思われ,しばらくそういった領域の勉強をしなければいけないと思っています(特に結論はありません).

*1:これは要は人工知能研究におけるフレーム問題なのだと思うのですが.

*2:自動要約は内容選択のために tf-idf を利用することからも,情報検索との近縁性がわかります.

*3:3月の言語処理学会での長尾先生,辻井先生の特別招待講演や,その後のワークショップでの議論などは,こういった「人間のモデル」の再考といった方向性を示しているように思われます.

*4:研究としてはある種の転移学習として考えるのだろうと思います.