Coling 2012 騒動

ここまでのまとめ(一部間違っているかもしれません)。

  • [2010年8月26日] Coling 2010 にて Coling 2012 の開催地が発表される
    • カナダ(1998)、ドイツ(2000)、台湾(2002)、スイス(2004)、オーストラリア(2006)、イギリス(2008)、中国(2010)と来ていたため、ぼちぼち北米か、という雰囲気があった
    • 蓋を開けてみればインド
      • 中印の台頭を印象づけられた
    • が、2回連続のアジアであり 2008年の IJCNLP もハイデラバードであったため、会場の反応は「うーん」
      • いろんなところに行きたいのでできれば開催地は毎回世界各地にばらけてほしい
  • [2012年7月末] Coling 2012 CFP が届く
    • たまたま私の手元に来たのが遅いだけかも
  • [2012年8月頭] 謎の原稿フォーマットにびっくり
    • A5 single column であり(これまでは A4 double column が主流)タブレット端末を意識してこの形式にしたとのこと
    • フォーマットはともかく、 LaTeXコンパイルが通らない
  • [2012年8月25日] 投稿締め切り日……であったが、一週間延長される
  • [2012年8月31日] 延長された投稿締め切り日……であったが更に12時間締め切りが延長される
    • LaTeX のフォーマットと相まって、「なにやらおかしいぞ」
  • [2012年10月1日] 採択通知前にもかかわらずプログラム委員(査読者)のリストがウェブサイトに掲示される
    • おかしい
      • 査読の結果が出る前に査読者の一覧を出すべきではない(査読者に対する贈賄の恐れがある)
  • [2012年10月頭] 突然の Rebuttal の通知
    • 一部の投稿者に Rebuttal が可能である、とのメールが届く
      • Rebuttal とは、査読者に対して著者が、査読に明らかな間違いがあるようであればそれに反論すること
      • 投稿時点では Rebuttal が可能であるとは知らされていなかった
    • 一部の著者のみに届いたため、投稿者は混乱
      • ボーダーライン上の投稿のみに送られているのか?などの憶測が
    • 最終的には全ての投稿者に届いたものの……
  • [2012年10月15日] Rebuttal に関する通知に記されていた採択通知の日
    • 通知が来ない
  • [2012年10月17日] ウェブサイトで採択された投稿が発表される
    • 投稿番号とその採否の表が公開される(ふつう、採択された投稿のタイトルとその著者の一覧公開される)
      • まるで合格発表
    • accept でも reject でもない、大量の accept-waiting の存在
      • 補欠?それにしては数が多すぎるのでは?投稿者は混乱
  • [2012年10月24日] 一部の発表が accept から reject になる
    • morphology の session で accept されていた投稿の一部がなんと reject に変更される
  • [2012年10月26日] ようやくメールでの採択通知が到着する
    • メールのタイトルが Coing-2012
  • [2012年10月末] ビザ取得のための招待状がメールで届く (New!)
    • 添付ファイルが winmail.dat
    • 拡張子を pdf に変えると開ける

今後の予想。

数多くの障害を乗り越え Coling 2012 の accept 通知を受け取った研究者は、ポスターを後生大事に抱え成田からシンガポールへ向かい、ムンバイへの便を待つ。無事ムンバイ行きの便にトランジットし、機内でポスターケースを確認するとケースの中には謎の地図が!シンガポールでトランジットを待つ間、ドイツ人風の男とぶつかってポスターケースを落としたときにケースを取り違えてしまったのだ!これでは No show になってしまうと困惑する研究者に追い打ちをかけるように、研究者の乗った飛行機がインド北部の山奥に墜落してしまう。命からがら飛行機から脱出し、研究者は山奥の村に辿り着く。やれやれ助かったと安心したのもの束の間、その晩謎の男達が村を襲撃する。研究者は持ち前の格闘術で襲撃者を撃退し、そのうち一人を捕縛し締め上げると、とてつもない事実が明らかになった!なんと研究者が持っているその地図はナチスドイツが北インドに隠した金塊の在処を示す地図だというのだ!地図を取り戻し、発掘した金塊を元に第三帝国の栄光を取り戻そうとするナチスドイツ残党の執拗な攻撃。正義感と研究実績の間で思い悩む研究者。研究者はナチスドイツ残党の野望を食い止め、ポスターを取り戻しムンバイで発表できるのか?(つづく)

風姿花伝に学ぶ新人教育

桜の季節がやって来ました。あと一週間もすれば、職場、学校に新しい血がやって来ることになります。とはいえ、これも、九月入学が大勢を占めるようになれば変わるのでしょうが。

さて、新人には、教育を施さなければなりません。新人教育といって思い出されるのは、世阿弥による能楽書「風姿花伝」の第一章「年来稽古条々」です。

ご存知の通り、この本は父・観阿弥と共に能を成立させた世阿弥による芸能論です。この本は能の演者のための網羅的な教科書になっており、そのうちの一章が若者の育成方法、能の演者のキャリアに割かれています。教育に関する主張は世に浜の真砂の如く存在するでしょうが、私はこの本が一番記憶に残っています。

週末に読み直したので、重要と思われるポイントを意訳しつつ抽出してみます:

  • 最初のうちは好き勝手にやらせろ。細かい指示を出すな。細々と指示を出すと初心者はやる気をなくす。初心者がやる気をなくすと後継者がいなくなってその分野が途絶える。
  • 初心者には初心者なりの、それまでに身に付いた良さがあるので、それを活かすようにしろ。
  • 基本的なことだけ教えろ。いきなり大舞台に立たせるな。

実に単純、明快ですね。風姿花伝では能の稽古は七歳より開始されることになっており、稽古が始まった頃に教える側が考慮すべき点をまとめると、上のようになります。新人の教育にあたっては、あまり気負いすぎず、最初はこの程度のことを気に留めておけばいいのではないかと思います。

自然言語処理と数理計画

風邪をひいてしまいました。小町さんのブログで最適化の話が出ていましたので、床に臥せりながら CList/NLPer が数理計画を勉強するにはどの本を読むべきか、ということを考えていました。

数理計画がどういった問題を扱いうるのかというところでは、松井ら『入門オペレーションズ・リサーチ』は例を挙げて平易に、数理計画の応用としての OR の要点を解説しており、入門書はこれで決定でしょう。ただし誤字脱字の類が甚だ多いため、正誤表が必須です。二冊目が難しいところですが、今野ら『整数計画法と組合せ最適化』は実践的な内容で、ソルバが中でどのように動いているか把握するのに好適です。ただし内容が少し古いです。基本的なことがわかったら藤澤ら『応用に役立つ50の最適化問題』がいいでしょう。これは最適化問題のうち商業上有益な応用を持つものが列挙されていて、解法についても解説されています。 CL/NLP に身近なところとしては SVM の話も出ています。コルテらの大著『組合せ最適化』は、スタミナがあれば冒頭から読破していくのもいいですが、最初は辞典的に読んだ方がよいのではないかと思います(シュプリンガーの和書事業譲渡の影響で月末に丸善から再出版されます)。他にいい本があれば是非教えてください!

数理計画を使って言語処理をするメリットは以下のようなところかなと思います。

  1. 他分野の知見を援用できる。問題を抽象化すると表面的には全く無関係に見える問題に共通の構造が表れます。そのため、広範な分野の知見を使って目の前の問題に取り組むことができます。
  2. 複雑なプログラムを書かなくてよい。問題を数理計画として表現することができれば、ソルバと呼ばれる専用のソフトを使ってその問題を解くことができます。
  3. 潰しが利く。例えば、自動要約は施設配置問題、係り受け解析は最短経路問題、機械翻訳は巡回セールスマン問題と見なすことができ、電話会社からみると、これらはそれぞれ、局舎を配置する問題、全局舎を接続する問題、頑健に全局舎を接続する問題(円環状に局舎を接続すると一カ所接続が途絶えても全局舎間の接続は維持されます)になります。人事異動に頑健になるわけですね。

あとは、私個人としては、何らかの現象をシミュレーションする、ということに強い関心があります。そのため、計算言語学自然言語処理を、言語現象を計算機を使ってシミュレーションするもの、と見なした方がやる気が出るんですね。もちろん、シミュレーションの対象である言語現象にも関心があります。アプローチ(シミュレーション)と対象(言語現象)いずれにも興味があるから、自然言語処理が好きなんでしょうね。

2011年の商いを振り返る

昨年に引き続き、今年の振り返りをしたいと思います。

今年は新しい研究課題に取り組む一年にするつもりだったのですが、状況の変化があったため、一年を通じて要約技術の実用化に力を注いでいました。研究成果の発表といった点では芳しからぬ一年でしたが、実用化という点では、いくらかメディアに取り上げられるなど、成果のあった一年だったと思っています。企業研究者という立場上、書けないことが多いですが、来年に向けて地歩を固めることができました。

さて、文献ですが:

石垣島にて発表してきました。

こちらは豊橋にて発表

同僚の仕事を手伝ったもの。

あまり発表はできませんでしたが……一方、1月に文書要約技術の公開実験を始めました。その関係でいくらかメディアに取り上げられることがありました。

ニュース記事に関しては他にもあると思います。それにしても、インタビュー(を受けるの)は難しいですね……。

月別に。

こうしてみると、今年は身体にいろいろ刃物を入れましたね……。

それはともかく、何かと大変な一年でしたが、今年も大勢の方と新しくお知り合いになる事が出来て本当に良かったです。あまりにも大勢の方にお世話になり到底書ききれませんが、学会や研究会はでは @agfasensor505d さんや @akf さん、 @cacaho さん、 @hikaruy さん、 @hillbig さん、 @hjtakamura さん、 @langstat さん、 @mamoruk さん、 @murawaki さん、 @ohkura さん、 @unnonouno さん、 @wildkatze さん、 @yotarow さん、 @yucchiiro さん、 @zzzelch さんら大勢の方にご指導ご鞭撻を賜りました。企業で言語処理に携わる先人である @kimuras さんと @overlast さんは常に一歩進んだ視点をくださり、言語処理を生業にする者として大変勉強になりました。勉強会では @echizen_tm さんや @nokuno さん、 @tkng さん、 @uchumik さんの技術的な貪欲さに大変な刺激を受けました。エア弟こと @antibayesian さんとはバックグラウンドや目指す方向が近く、心強さを感じました。同僚の @maropu や @sleepy_yoshi には頭が上がりません。優秀かつ超個性的な後輩である @haplotyper さんや @koh_t さん、 @sepand9 さん、 @syou6162 さん、 @y_benjo さん達のキャラの濃さにはいつも大変な危機感を覚えています。一年どうもありがとうございました。来年もよろしくお願いいたします。

情報処理学会第204回自然言語処理研究発表会に参加してきました

2011年11月21日(月)、22日(火)に石垣島で開催されました情報処理学会第24回自然言語処理研究発表会(長い)に参加してきました。この研究会と言うものについて説明しておきます。情報処理学会のような大規模な学会になると、対象とする学術分野が非常に幅広くなるため、もう少し細かい粒度の組織が内部に設定されることがあります(Special Interest Group (SIG) と言ったりします*1)。情報処理学会ではそれを研究会と読んでいます。情報処理学会には自然言語処理を扱う研究会として名前もそのままに自然言語処理研究会があります。自然言語処理研究会は年に6回、奇数月に研究発表会を開催しており、今年最後の研究発表会が石垣島で催された、というわけです。

さて、当然、西川も発表をしてきました。

転移学習による抽出型要約の精度向上(西川仁、牧野俊朗、松尾義博)

原稿はこちら

文書を計算機によって要約させる技術を西川は商っています。計算機に文書を要約させる基本的なアプローチは、要約の対象となる入力文書を文に分解し、それらの文の集合の中から制限サイズに収まる部分集合を選び出す、というものです。無数にある(入力に対して指数的な部分集合が存在します)部分集合の中から一番よいものを選びだすために、即ち要約のよしあしを判断するために、一つ一つの部分集合に対してスコアを与える関数(目的関数)を定義します。

目的関数を構成するパラメタを推定するために、近年では教師あり学習が利用されます。学習の際には、当然、実際に要約の対象とする文書と似た訓練事例からパラメタを推定しないといけません。例えば経済に関する記事を要約する際には、経済に関する記事とその要約からパラメタを推定する、といった具合です。しかし、現実的には、政治に関する記事を要約したいが、手元には政治に関する記事の訓練事例はあまりなく、経済に関する記事の訓練事例がたくさんある、といったことがよくあります。そのような時に用いられるのが転移学習(ドメイン適応と言う言い方もします)で、別の分野(ドメインという言い方をします)の訓練事例も利用して学習を行う技術です。

今回の発表では要約器のパラメタ推定に転移学習を導入し、その結果を報告しました。上に述べたように、実用上は非常に重要な技術で、今回何はともあれ着手することができて良かったと思っています。

聞いた発表で、特に面白かったものを一つご紹介します。

アスペクト被覆を可能にした最小値最大化問題に基づく文書要約モデル(牧野拓哉、高村大也、奥村学)

オペレーションズ・リサーチの分野には最小値最大化問題と呼ばれる問題があり、それを文書要約に応用したもの。最小値最大化問題について簡単に説明します。飲み会の清算を例にしましょう。課長、係長、社員の三名で飲み会があり(嫌な会ですが……)、後日清算を行うことになったとします。一応立場がありますから、支払額は課長>係長>社員の順にしたいのですが、課長、係長は吝嗇で知られており、残念ながらできるだけ三名の支払額を平等にしなければなりません。このときに取ることができる一つの方策は、支払額が課長>係長>社員となる制約の下で、社員が支払う額を最大化することです。すなわち最小値を最大化すると、この三名の支払い額は非常に近い値になるわけですね(もちろん、細かい値になると怒られるかもしれませんから、他に、100円で割れる数、といった制約を加えた方がいいでしょう)。

このようなモデルで文書要約を行うと、要約に格納したい情報の種類が複数あったときに、それらを比較的平等に要約に含めることができます。非常に面白い着眼点と思いました。

おまけ

ちょっと時間を見つけて、川平湾に行ってきました。

短い時間ですが、東シナ海の波に洗われて、リフレッシュしました。

たまには遠出もいいものですね。

*1:他の例としてACLSIGDAT(EMNLPを主催)やSIGDIAL(SIGDIALを主催)、ACMSIGIR(SIGIRを主催)があります。

NLP若手の会第6回シンポジウムに参加してきました

9月21日、22日とNLP若手の会第6回シンポジウムに参加してきました。今回は不肖西川もプログラム委員を拝命しまして、主にウェブサイトの更新等を行っていました。つい先日ウェブサイトについては今回のシンポジウムに関する作業が全て終わりましたので、そろそろ記事を書いておこうと思います。

西川は自然言語処理を生業としておりますので、常日頃、自然言語処理に関して何かしらの問題意識を持って仕事をしています。問題意識というと大仰ですが、要は、自然言語処理における問題の設定やその解き方、応用などについて、もっとこうしたら良い結果が得られるのではないか、というような考えは常々持っているわけです。この仕事で生計を立てていますから、自然言語処理で良い仕事が出来るか否かが週末のビールジョッキに直結しています。当然、必死です。

今回のシンポジウムでは主に以下の2つの問題意識を刺激されました。それぞれ引き金になった発表がありますので、それらを絡めてちょっとお話したいと思います。2つの研究発表をご紹介しますが、なお、これらを批難する意図は全くありません。単に私の問題意識として以下のようなことを考えた、ということでしかありません。いずれも優れた発表と思いますし、ご紹介する2つの発表は実際いずれも今回の若手の会の奨励賞に選ばれています。良い研究発表というものは、聞き手の問題意識を刺激し、何かしら考え込ませるものなのだと思います。

他のアプローチはないか

海野さんのご発表は複合語の内部構造(係り受け)をN-gram統計量から推定するというもの。今回のご発表では複合語が対象となっていますが、本来は複合語に留まらず文の構造を検索に利用するというものだと思います。

自然言語処理を商業的に応用する立場から見ると、係り受け解析は奇妙なタスクです。係り受け解析そのものの結果は必要がないけれども、評判分析などの情報抽出や述語項構造解析、機械翻訳といった実用上重要な処理を行う際には、係り受け解析の結果が、これらの処理に際して特徴量として重大な意義を持っています。情報検索においても、本来的に欲しい情報は係り受けそのものというよりは、その少し先にある項構造なのだと思います。つまり、実用上は、係り受け解析の結果そのものではなく、その先にある結果が必要な場合が多く、その結果を得る手段として係り受け解析があります。

そのため、仮に係り受け解析を行わずとも、本来必要とされる情報を得るタスクにおいて、同等あるいはより良い結果が得られるのであれば、係り受け解析を行う必要はありません。係り受け解析は決して軽量な処理でないということもありますし、そもそも係り受け解析は非常に難しい処理で、精度の問題もあります。

自然言語処理は歴史的に、任意の自然言語の入力を処理するに際して、形態素解析係り受け解析、意味解析と順繰りに入力を処理していく作戦を取っています。この作戦は言わば王道で、汎用性がある一方、解析のいずれかの段階で誤りが生じるとその誤りが後段の処理に伝播していく問題があります。

この作戦に対する問題意識は、つまり、実用上はもっと楽ができる抜け道があるのではないか、ということ。実用上欲しい情報が項構造であれば、とにかくどういった方法であろうとそれを得ることができれば良いのであって、処理の対象を限定することが可能であれば、もしかしたら係り受け解析を迂回する作戦があるかもしれない。

自然言語の城砦を占領しようとするならば守りの堅い正門を破る必要があるかもしれませんが、ちょっとしたお宝を城砦から拝借しようとするだけならば、手薄な裏口から忍び込んでお宝だけ頂戴することが可能かもしれません。

問題は切り分けられているか
  • 大規模語彙知識を用いた仮説推論による文章理解モデルの構築に向けて(杉浦純、井之上直也、乾健太郎

仮説推論器に推論に関するメタ知識と大規模な語彙知識、論理式に変換された自然文を入力し、入力された自然文を説明する仮説を得るというもの。推論は、数理的な問題(整数計画問題)として表現された入力を解く(最適化する)ものとして行われますが、そもそも整数計画問題で表現されるような問題は計算機にとって解くのが非常に難しい問題で、ご発表でも求解に時間がかかることが問題になっていました。

西川は文書要約を商いとしていますが、近年の文書要約研究では要約を、このご発表と同様に、数理的な問題として表現し、数理的な問題を解く汎用的なソフトウェア(ソルバと言います)を利用して問題を解くものが随分あります。西川自身そういった方針で機械に要約を行わせたことがありますが、非常に大規模な入力に対する複数文書要約の場合、高速な計算機(高いです)と商用ソルバ(本当に高いです)をもってしても求解に1日かかることもありました。

計算機で何かしら問題を解く際には、根本的なトレードオフがあります。複雑な現象を計算機に再現させるために複雑なモデルを作ると、推論に大変な時間を要する一方、モデルが現象を適切に模擬しているのであれば、良い結果が得られます。一方、簡単なモデルを作ると推論に時間はかかりませんが、模擬したい対象をモデルが適切に再現できるとは限らず、良い結果が得られる可能性も下がります。

仮に、推論に時間をかけてもよい状況下ならば、モデルは複雑になるけれども、模擬したい現象をうまく再現できるのであれば、複雑なモデルを作ってもいいわけです。西川の問題意識は、問題意識というよりは仕事をする上での注意点ですけれども、つまり、時間をかけて推論してもよいのであれば、表現力の高い複雑なモデルを作っても良いのではないか、ということ。

実用上は、一ヶ月に一度推論すればよい場合もあるわけです。その場合、極端な話、推論に一ヶ月かかるモデルであっても、よい結果を得ることができるのであれば、別にそれでよいのですね。時間による制約は、存外柔軟なもので、計算機の性能向上と相まって、金科玉条とすべきものかというと、そうとは限らない。

模擬したい対象に対してモデルがどの程度の表現力を持っているか、時間を度外視した際にどの程度の表現力を持ち得るか、という問題と、所与の時間内でどの程度の性能を達成し得るか、という問題は分離しなければなりません。時間的な制約が厳しいのであれば表現力を犠牲にしつつもその制約の中で最良のモデルを開発する必要がありますし、時間的な制約が厳しくないのであればモデル本来の性能を追求すべきです。現代は複雑なモデルに対する近似解法が多く開発されていますから、尚更、モデル本来の性能に敏感であるべきでしょう。

飲み過ぎていないか

――という塩梅に、上に申し上げたようなことをシンポジウム中では考えていたのですが(本当です)、実に楽しい会で、懇親会で痛飲し、二次会ではべろんべろんで、翌日皆様に白眼視されるというつらい思いをしました(2日目は本当に針の筵でした)。飲み過ぎには注意しましょう。

LEGO Architecture 落水荘がスゴイ

LEGO ArchitectureシリーズFallingwater(落水荘)を作りました。


これは、レゴで世界の名建築を再現するLEGO Architectureシリーズの一つで、フランク・ロイド・ライトの手による落水荘をレゴで再現するというもの。

写真の箱の中にはバラバラのレゴのピースが入っており、これを同梱されている冊子に記載の手順に従って組み立てて行くことになります。ピースの数は約800個で、制作に要する時間は、のんびり作ると、大体4時間くらいでしょうか。レゴの商品にはそれぞれの商品の対象年齢が書いてありますが、本商品は「16+」。大人向けの商品です。

この商品、レゴによって形作られるミニチュアの落水荘の佇まいもさることながら、同梱の冊子が素晴らしい。フランク・ロイド・ライトの略歴から始まり、落水荘の歴史、データ、そして建築家の建築物に対する思い、すなわちフランク・ロイド・ライト落水荘に対する思いが述べられています。

さらに、手順書の中では、要所要所でフランク・ロイド・ライトの言葉が引用されています。手順は、大まかにいって、平らな一枚のプレートに自然や建物の土台を組み立てていき、それからその土台に落水荘の建物本体を結合させる形になっていますが、例えば手順書の前半、落水荘の土台を作り始める際には以下の言葉が引用されます:

Bring out the nature of the materials, let their nature intimately into your scheme ... Reveal the nature of the wood, plaster, brick or stone in your designs, they are all by nature friendly and beautiful.
(LEGO Architecture Fallingwater, p.13)

また例の有名なカンチレバーを組み立てるところでは:

The cantilever is essentially steel at its most economical level of use. Construction lightened by means of cantilevered steel in tension, makes continuity a most valuable characteristic of architectural enlightenment.
(LEGO Architecture Fallingwater, p.91)

随時こういった具合で、落水荘を「建設」する過程でその背景に深く迫ることができるよう丁寧に設計されています。ともすると無味乾燥な組み立てになりかねませんが、この引用が清涼剤となって組み立てを飽きさせません。この演出は組み立てる過程が商品に含まれるレゴならではのものですね。

今日の午後、思わず時間を忘れて作ってしまいました。少々お値段は張りますが、建築がお好きな方ならばとても楽しめる商品だと思います。それにしても、日本語の「落水荘」という訳は素晴らしい訳だと思います。誰が考えたんでしょう……。

レゴ (LEGO) アーキテクチャー カウフマンズ邸・落水荘(R)  21005

レゴ (LEGO) アーキテクチャー カウフマンズ邸・落水荘(R) 21005