今年の言語処理学会のあれこれ
今書かないと永遠に書かないような気がしますので書いておこうと思います。単なる雑駁な感想です。言語処理学会に行ってきました。今年も例年通りお祭り騒ぎと申しますか、会期中、普段お会いできない方々と、旧交を暖めると称して酒を酌み交わす日々となりました。私自身は本会議でのポスター発表とワークショップでのオーラル発表があり、これらをこなしつつ、夜は酒席に馳せ参じるという塩梅で、なかなかハードでした。
- 昨年の北海道では3回の発表(本会議での一般発表、論文賞受賞に伴う発表、ワークショップでの発表)と3回の座長(チュートリアルの司会、一般セッションの座長、ワークショップの座長)と初日から最終日までやたらと仕事があり、気を張っていましたが、この点では今回は気楽でした。
- 言語データの著作権に関するチュートリアルが異常に面白く、何と申しますか、勉強になりました。
- NLP 若手の会の委員長の1人として、 YANS 懇を無事に開催させることできるか、いささか懸念していましたが、盛会のうちに終わらせることができ胸を撫で下ろしました。
- 今回、久しぶりにポスターで発表をしたのですが、ずいぶん大勢の方がお越しくださり、あれこれお話しすることができ、大変楽しみました。やはりポスターはいいですね。
- 学会自体は大変盛況で多数の発表、参加者があり、新しい潮流と思われるものもいくらか見られるものの、どうにも、自然言語処理の諸課題の本質的な前進に貢献できると思われる発表があまり見られず、なかなか難しい状況であるようにも見えました。
- 今回もっとも印象に残ったのは Project Next で、私は要約課題グループの取りまとめをしており、なかなか苦労がありました。今回のこのプロジェクトは、自然言語処理の異なる部分領域同士の相互交流を企図して催された面が大きいですが、ふと終わって振り返ってみると、私自身はむしろ同じ部分領域の研究者同士の結束を強める会になったのではないかと思います。昨年11月に、要約課題グループではミーティングを持ちました。このミーティングでは活発に活動している自動要約分野の研究者が集まり、自動要約について忌憚のない議論を行いましたが、このような場が設けられたはおそらく Text Summarization Challenge 以来、15年ぶりなのではないかと思います。このミーティングは非常に印象的で、あの場で議論に参加できたことは素晴らしい経験でした。最終日のワークショップでは誤り分析の枠組みの話をさせていただきましたが、この枠組みはなかなか面白いものだと個人的に思っており、そのうち詳しく書きたいと思っています。
普段の半年分の酒精を1週間で飲んだような日々でしたので、さすがに疲れました。次回の言語処理学会は東北大学とのことです。次は仙台でお会いしましょう。私は来年度はまず、5月の自然言語処理研究会に参加する予定です。
花崗岩の街
言語処理学会に行くと、どうも、毎年、「ブログを更新しなさすぎではないか」との苦言を賜りますので、その前に一度更新しておきたいと思います。あまり真面目なエントリではありません。
8月に英国のアバディーン大学を訪問しました。以前、アバディーン大学の Siddharthan 先生と知り合いまして、せっかく Coling 2014 でアイルランドまで行くので、ということで、研究グループを訪問させてもらいました。アバディーン大学は自然言語生成の世界的な拠点の一つで、自然言語生成の第一の教科書 Building Natural Language Systems の執筆者である Ehud Reiter 教授をはじめ、有名な研究者が大勢がいらっしゃいます。
アバディーン大学の創立は、なんとまあ、1495年で、ずいぶん古い大学です。明応の政変の2年後ですから、戦国時代の最初期ということになるでしょう。古いだけあり、市街と溶け込むように大学の施設が立地していて、例えば訪問先の研究室のある施設の街路を挟んだ隣の区画はごくごく普通の民家であり、その更に向こうに街路を挟んで大学の礼拝堂があるといった具合で、古いスコットランドの街並と渾然一体となったキャンパスは実に趣がありました。訪問先の先生によれば、空き家になったところから大学が買い取っているそうで、あと100年も経てば大学ももう少し一体感を得るのではないか、ということでしたが、いやはや、なかなかこの時間感覚は日本とは異なるものがあります。大学のある地域は Old Aberdeen と呼ばれ、この周辺でも一際古い地域で、そのためか家々の戸がずいぶん小さい。これは昔の人々と現代人の体格差によるものだ、との解説を受けましたが、おそらくいまお住まいの方々はいささか苦労しているのではないかと思われます。それはすなわち往時の住居がそのまま形態で現在に残っているということでもあります。
トークそのものは、大過なく終わり、 Coling のよい予行演習となりました。アバディーン大学には、私と私の同僚が1人、あと偶然にも国文学研究資料館の野本先生がお越しになりまして、野本先生とアバディーン大学のスピーカと我々とでこじんまりとした研究集会が催されました。こういった研究集会で話をするというのもなかなかよいもので、講演者と聴衆が近く議論がしやすく、刺激になります。
その夜は市内のレストランで食事をしました。ワインなどを飲みながら、話題はやはりスコットランドの独立に及び、今となっては結果は明らかではありますが、その時はずいぶん独立派の勢いが盛んな時でしたら、訪問先の先生もいささか気を揉んでいるように見受けられました。スコットランドの大学の学術研究における予算は、スコットランドに由来するものよりもイングランドに由来するものの割合が多いらしく、独立した結果、予算がいささか逼迫することは避けられないとのことで、こういった話題はどこでも変わらないものだとつくづく思いました。トークの後に訪れた、アバディーン大学の礼拝堂の門前は、イングランドを表す獅子と、スコットランドを表すユニコーンが左右を守護しており、スコットランドが独立するとこれは左右ともユニコーンになると冗談めかしていたことが思い出されます。
時間は前後しますが、トークの前日、訪問先の先生と、まあ、飲みに行きました。スコットランドと言えばウイスキーですが、まずはビールでもどうか、ということで、ビア・バーに行きました。アバディーン市から、近くはないのですが、いくらか北に行ったところに本邦でもここしばらく有名な Punk IPA の生地があるそうで、そういったわけで Punk IPA で乾杯をし、しばらく四方山話などをしました。その後はパブに行き、スコットランドのモルトをいただいたという次第で、うーん、また行きたいですね。
私が訪問したときのスコットランドには寒波が到来しており、8月にもかかわらず非常な低温でした。アバディーン市近郊は花崗岩の採掘で有名らしく、 Granite City との異名もあるようですが、帰路、底冷えのする花崗岩の街の物陰でふと思い出されたのは7年ほど前の職業選択のことで、当時の自分には研究者になる他の選択肢もありましたが、特段、強い意志に基づいてこの選択を行ったわけではないものの、あの頃の意思決定が巡り巡って、いま自分がこの寒々しい街で帰路を急いでいるかと思うと、旅の疲れと酔いに微妙な趣きを添えて、なかなか味わい深いものがありました。
非常に雑駁なことを書いてしまいましたが、むりやり、何かしら有益なことを抽出しようとすると、以下のようになるでしょうか:
- 国際会議に通すとその原稿を読んでくれる人がいくらかはいて、その人たちと知り合いになれたりするようです(4年くらい昔に書いた論文が結構いろんな人に読まれていて、それを通じていくらか知り合いができました)
- このような知り合いがいると、国際会議に行く時に、そういった知り合いに連絡を取り、研究室を訪問させてくれよ、と尋ね、飲みに行ったりすることができ、現地のおいしいお酒が飲めます
- 多少は話が通じないといけないので、やっぱり現在の Lingua Franca たる英語をある程度何とか操らないといけないようです(花崗岩 granite という単語が会話に出てきたとき、日本語でもこの語は滅多に使わないし、英語で使うことはあるかなあ、とぼやきながら単語を覚えた昔の自分を思い出しました)
そういったわけで、来週の言語処理学会ではよろしくお願いいたします。水曜日のポスターセッションと、 Project Next NLP で話をする予定です。
テキストに書かれている大切なこととは
先々週の言語処理学会の懇親会で「あまりにもブログを更新しなさすぎでは?」というお言葉をいただき,確かにそうかな,と思い,最近ちょっと考えていることでも書いておこうと思います.
自然言語処理において自動要約を独特のものにしているのは,機械にある種の価値判断を強いる点です.自動要約には,首尾一貫したテキストを生成するという課題とともに,入力文書中に含まれる重要な情報を同定する(内容選択)という課題があります.これは非常に独特なもので,例えば機械翻訳は入力されたテキストに含まれる情報を異なる言語のテキストの上において再現するもので,機械に情報を取捨選択させるということはしません.自然言語解析の種々の技術も同様です.自然言語処理のほとんどの処理では入出力の(意味的)等価性が保たれますが,自動要約においては入出力の等価性が保たれることはあまり期待されません.自動要約は価値判断を機械に強いるわけです.
この点に意識的な方は実は自動要約の研究者でもさほどいないのではないのだろうかと思われますが,自動要約の本質的な難しさの1つはこの点にあります.つまり,ある状況におけるある読み手のためにある文書(あるいは文書群)を要約しなければならないわけですが,そのためには状況と読み手と文書を理解しなければいけないわけです.これは難しい問題です.企業にて研究開発,実用化に携わっていると,実に様々な文書に対して要約を行う機会があるのですが,この状況,読み手,文書の組み合わせは無数にあり,ある特定の組み合わせにおける重要な情報を捉えるため,組み合わせ毎に作戦を変えなければいけません.もちろん,捨象できるものは捨象し,単純化された,問題特有の構造を取り出して課題として成立させるわけですが,その結果として立ち現れる課題は特殊性が強く,そのためにこういった組み合わせに対して横断的に,頑健に使える内容選択の特徴量というものはほとんど単語の入力文書における出現頻度くらいしかありません.
そもそも,これは自動要約の研究を始めたときに最初に直面した悩みでしたが,重要な情報を判断させる,という課題が自然言語処理の範疇にあるかというと,個人的にはそうは思えません*1.そういったことから,私のこれまでの立場は「何が重要かは入力や読み手によって変わってしまうので,参照要約(人間が作成した要約)から学習する他ない」というものでした.換言すると,首尾一貫したテキストを生成するという課題は自然言語処理の範疇に入るけれども,何が重要な情報かを同定する課題は自然言語処理の範疇ではなく,情報の検索や推薦の範疇と考え*2,割り切って問題に取り組んでいました.
しかし,どうも,この頃立て続けにこの内容選択に関して考えさせられる機会があり,やはりこれは本質的な課題から逃げているのではないだろうか,とここしばらく思うようになってきました.昨年9月の自然言語処理研究会での講演の際に頂戴した質問のうち印象に残っているものの1つは,重要文選択に用いられる特徴量に50年前から進歩はないのか,というもので,上で述べたように,広く使える特徴量は実際,自動要約研究の黎明期に開発されたような非常に単純なものしかないわけです.こういったご質問に対しては,上に述べましたように,要約の対象となる文書毎に性質が異なるため,それらに合わせて特徴量を設定する,などと適当にその場を取り繕うのですが,やはり質疑が終わり壇上から降りたときに残る気持ち悪さは拭いさることができず,こうして筆を執っているわけです.もう少し横断的に使える特徴量はないものかと.
さて,どうするべきか,というところですが,おそらく,こうした問題に対しては今のボトム・アップ的な方法から一度離れ,ある程度トップ・ダウンな人間の情報選好モデル*3といったものを考えて,そこから分野・ユーザ横断的な内容選択モデルを導く*4といったことをしないといけないのではないかと思います.こういったモデルを構築する手がかりはおそらく自然言語処理の分野にはなく,他の領域にあると思われ,しばらくそういった領域の勉強をしなければいけないと思っています(特に結論はありません).
自動要約の研究動向
あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります.
昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会と人工知能学会第91回人工知能基本問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います.
今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.
日本,日本語,自然言語処理
2013年も本日で最後となりましたが,いかがお過ごしでしょうか.まだ掃除も終わっていないのでこんなエントリを書いている場合ではないのですが,整理のためにも書いておきたいと思います.
最近,自分のキャリアについて考えることが多くなってきました.現職についてあと3ヶ月程度で丸6年となりますが,年齢においても,生活においても,職業人としての到達点においても最近一つの区切りを迎えたということがあり,これまでを振り返って今後の方向性を検討する時期にあるように思っています.
そんな中で何冊かキャリアに関する本を読みましたが,自然言語処理分野の研究者としていささか考えさせられるものがあったのは『10年後に食える仕事、食えない仕事』という本です.この本の要点は日本人メリットを活かした仕事をすれば食いっぱぐれない,というある意味では素朴(かつごく妥当)なものですが,興味深いのは数ある職業を 1.技能集約的か知識集約的か, 2.日本人メリットの有無,の2軸でわけた4象限で以下のように分類していることです:
- 重力の世界:日本人メリットなしかつ技能集約的な職業群.移民を受けて入れている国家においては移民で充足されるような職業.ブルーカラー的で,低賃金.
- 無国籍ジャングル:日本人メリットなしかつ知識集約的な職業群.国籍不問で高い専門性が重要な職業.ホワイトカラー的で,高賃金.トレーダーや基礎研究者など.競争が激しい.
- ジャパン・プレミアム:日本人メリットありかつ技能集約的な職業群.商品,サービスの売り手が日本人であることが重要な職業群.高額商品を販売する営業職や,高級旅館の従業員など高付加価値のサービスを提供する職業.
- グローカル:日本人メリットありかつ知識集約的な職業群.日本人であることが重要であり,かつ高い専門性が必要.ジャーナリストやコンサルタントなど.
身も蓋もない分類ではあります.
さて,私を含む,自然言語処理研究者はどこに位置するのでしょうか.これはなかなか微妙な問題です.トップ国際会議での採録を目指して世界中の研究者たちとしのぎを削るという観点から単純に考えると,我々は「無国籍ジャングル」に生きていると考えるのが妥当でしょう.実際に「無国籍ジャングル」に位置する職業として楽天技術研究所の研究者(おお,すごい)が例として挙げられており,楽天技術研究所にお勤めの方には自然言語処理を専門とされている方が多くいらっしゃいますから,同業者である我々もジャングルの住人であると考えることはできます.実際,現代の自然言語処理において必要とされるものは,現在のリンガ・フランカであり国際会議の公用語である英語を操る能力と,統計的アプローチに必要な応用数学と計算機科学の知識であり,あまり日本人メリットはないといえるかもしれません.むしろ,英語母語話者でない上,英語ではない言語を扱った論文を国際会議に投稿する際には当該言語の言語現象についての説明が必要という点においていささかのハンディ・キャップを負っていると考えることもできます.
一方,私のような日本人の自然言語処理研究者が扱っているものは日本語であり(必ずしも日本語には限らないのですが),これによって何かしら日本語の母語話者であるメリットを享受していることを考えられなくもなく,その点において我々は「グローカル」に位置すると考えることもできます.以前, Microsoft の IME は中国で開発されており,それによって IME の品質が低下している,という話題がありました.小町さんのブログによればこれは誤りのようで,この IME という,計算機を通じて日本語を記述するための不可欠な道具の整備が日本人の手に残っているようであれば,日本語母語話者としての自然言語処理研究者のメリットは残っていると考えることもできるでしょう.実際,日本語を自由に扱えた方が少なくとも日本語を対象として自然言語処理を行うに際しては便利であるわけです.
こういったジレンマ,日本人である故の有利と不利は自然言語処理に類することに携わっている人は誰でも直面するもので,適宜折り合いをつけてやっているのだと思うですが,来年3月の言語処理学会の招待講演では辻井先生がこういった話題についてお話くださるようです.日本語を対象として自然言語処理をやっていくメリットは日本語で行われる経済活動の規模に密接に関連しており,この点は当面はともかくとして中長期的にはなかなか懸念されるものがあります.
上で述べたように,現代の自然言語処理の研究に必要な能力はあまり母語に依存するようなものではなく,また比較的ポータブルなものですし,加えて短中期的にはそういった研究に従事できる能力を持った人間の需要は豊富であるように思えますので,すぐにどうこうというものではないのは確かなのですが.
とりとめのない文章であり,こういった益体もないことを考えて2013年は暮れていくのでありました.みなさまよいお年を.
共著の論文が論文賞をもらいました
3月の言語処理学会で、共著の論文に論文賞をいただきました。ありがとうございました。
- 今村賢治, 齋藤邦子, 貞光九月, 西川仁. 小規模誤りデータからの日本語学習者作文の助詞誤り訂正. 自然言語処理, 19(5):381-400, 2012.
まだ J-STAGE では公開されていないようですが、近く公開されるはずです。
さて、この内容ですが、日本語学習者が書く作文には頻繁に助詞の誤り(いわゆる「てにをは」)が存在するため、これを機械で修正するものです。この論文の特徴は3つあります:
- 句に基づく統計的機械翻訳の部分集合( reordering がない)の枠組で誤った助詞を修正
- データスパースネスに対しては擬似的な正例を生成して対処
- 本来の正例と擬似的な正例の性質の違いは分野適応を利用して吸収
私の貢献はこの3番めの分野適応のところにあります。貢献といっても大したものではなく、単に主著者がこの研究を進めていたときに、たまたま西川は要約の分野適応の研究をしていたのでした。自動要約においても参照要約を教師事例として利用することが一般的となっていますが、この参照要約というのは作成になかなか費用を要するものです。その上、要約の対象となる分野毎に参照要約を用意しなければならず、要約の対象となる文書が多岐にわたる場合、費用が馬鹿にならないのでした。1つの解決方法は分野適応を利用して異なる分野の参照要約も利用することで、要約対象の分野の参照要約が少量であっても、その分野の参照要約だけを利用するよりも良好なパラメータを得ることができます。ご興味のある方は以下の文献もどうぞ:
- Hitoshi Nishikawa, Toshiro Makino and Yoshihiro Matsuo. Domain Adaptation with Augmented Space Method for Multi-Domain Contact Center Dialogue Summarization. In Proc. of MLSLP, 2012.
これを敷衍し、擬似的な誤りを異なる分野の教師事例とみなして分野適応を行うことで、助詞誤り訂正においてより良好なパラメータが得られることが期待できる、という塩梅です。
今回、主著者の発表をききながら、以下のようなことをぼんやりと考えていました:
- 研究所という形態にはそれなりに意味があるのだろうということ。日本語助詞誤り訂正のような応用性の高いものは実際に事業をやっている部署で開発してもよいものだとは思いつつも、自然言語処理を専門とする技術者が集まっているところで作ることによって今回のような付加価値が生まれたということは否定できず、やはり専門家を1カ所に集約しておくことによって生まれる価値、相乗効果というものは相当にあるのだろう。少々誇大だとは思うものの、そのとき西川がその場にいなければ分野適応という発想まで到達していなかったかもしれないだろうと。
- 時の運というものがやはりある。上に述べた1番めの PBSMT の部分集合となっている機械だが、これは品詞(形態素)体系を変換するという研究(2011年の Interspeech の予稿集に予稿があるはず)が行われていたときに作られたもので、こういった機械を作ったばかりだったので研究の道具立てがほとんど揃っていた。実用においては異なる品詞体系を横断して自然言語処理を行わないといけないことが稀にあり、そのため品詞列を PBSMT を通じて変換するという装置を用意したのだが、この変換は reordering のない PBSMT とみなすことができ、これはそのまま日本語助詞誤り訂正に利用できる(その意味では reordering を含む本来の PBSMT は、問題設定によるものの、日本語助詞誤り訂正には対しては少し大げさな機械になっている)。
後者のような運はどうしようもないものの、前者はある程度意図的に周囲に対して働きかけることができるものだと思います。自分自身、良い研究を進めつつ、あわせて周りを刺激していくことができれば、と改めて思いました。