第7回自然言語処理勉強会で発表してきました

第7回自然言語処理勉強会で文書要約に関するお話をさせていただきました。その際に用いましたスライドを公開します。今回は入門編(初級編)なので、そのうち中級編をやるかもしれません。

毎回、スライドのレイアウトがおかしくなっていましたが、今回はpdfに変換してアップロードしました。こうすれば良かったのですね。今回はレイアウトが乱れていないはずです。過去のスライドもpdf化してアップロードしなおすつもりです。

次はグーグルによるザガットサーベイ買収の話か、NLP若手の会第6回シンポジウムの話を書きます。

第1回データ構造と情報検索と言語処理勉強会で発表してきました

夏休みの宿題はいつも、泣きながら8月末に取り組むタイプでした。今となっては懐かしいその気持ちをちょっと思い出しました。7月23日に、第1回データ構造と情報検索と言語処理勉強会にて「自然言語処理における argmax 操作」なるタイトルで発表させていただきました。その際に用いましたスライドを(漸く)公開いたします。

線形計画問題を解くシンプレックス法アルゴリズムについて加筆しています。ちょっと時間がかかり過ぎてしまいましたね。 A* 探索についても加筆しようと思いましたが、すぐに第7回自然言語処理勉強会がやって参りますので、流石に多重スライド務者は避けたいので公開します。

レーシックを受けてきました

少し前の話になりますが、西川はレーシック手術を受けてきました。レーシックとは、患者の角膜に対しレーザを照射し、角膜の形状を変化させ患者の視力を回復させるものです。実際、西川の両眼視力は0.05から1.5に回復しました。

西川は本稿を以て近視の読者の方々に対し手術を薦めるものではありませんが、いずれ斯界の方がレーシックにご興味を持たないとも限らないので、参考の為に顛末を記録しておくことにしました。ただし、本稿は特定の団体に対し何らかの便宜を図るものではありませんし、西川の所属する組織、団体とも本稿は一切無関係であります。また、万が一本稿をお読みになった方がレーシック手術を受けた結果、感染症等を引き起こすなど不利益被られたとしても、西川は一切責任を負うものではありません。

1. 動機
レーシック手術を受ける動機は2つありました。レーシックをしない場合のコストと、リスクです。

1.1 レーシックをしない場合のコスト
西川は眼鏡とソフトコンタクトレンズを併用していますが、このコストが馬鹿になりません。西川が受けたレーシック手術の費用は概ね25万円です。西川が使用しているワンデーのソフトコンタクトレンズは片目用30枚入りで約3500円です。西川のライフスタイルに合わせ、週末に2回使うと仮定し、28歳から40歳(40歳以降はいずれにせよ老眼になると仮定)まで利用し続けるとすると、(((40-28)*52*2)/30)*3500*2=29万円強となります。もちろんレーシック、ソフトコンタクトレンズ共にここに述べた以外の出費を必要とするでしょうが、少なくとも視力を低コストで維持するという点ではレーシックに軍配が上がりそうです。また、西川はソフトコンタクトレンズとは別に別途眼鏡を買い求めることもあるため、コストの差は圧倒的となります。

1.2 レーシックをしない場合のリスク
コストも重要ではありますが、西川に今回レーシック手術を決意させた最大の理由は東日本大震災でした。眼鏡やコンタクトレンズを日常生活に必要とする近視者は、災害時において圧倒的に不利な立場に立たされます。危険に囲まれた事態において十分な視力がないということは大変なリスクです。

2. 病院
さて、レーシックを受けるとなると病院を探さなければなりませんでした。幸いなことに、西川が普段からかかっている美容師さんが以前神奈川アイクリニックレーシック手術を受けていたため、彼の紹介を受けることができました。本来ならば広範な候補を比較検討するべきなのでしょうが、彼とは付き合いも長く信頼もあり、以前より彼からレーシック手術を薦められていたこともあり、神奈川アイクリニックに決めました。

2.1 初診
電話にて初診の予約を取りました。予約した日に新宿に向かうと、まずアンケートに記入させられます。なかなかボリュームがありますが、このアンケートが重要で、アンケートの内容によって後の手術の術式が決まります。アンケートの記入が終わった後には、各種検査があり、裸眼視力等を計測します。相当数の検査装置をたらい回しにされ、素人にはイマイチ一体それぞれ何を計測しているのかよくわかりませんが、計測項目は相当数に上ります。

2.2 術式
アンケートと検査結果を伴って、いよいよ医師との面談となります。この医師との面談によって術式が決定されることになるのですが、西川の場合は至って単純な理由で術式が決定されました。西川はある種の格闘技を嗜むため、そのような眼球に強い衝撃を受ける可能性がある場合はエピレーシックなる術式一択となるようです。

レーシックの基本的な手法は、角膜の表層にフラップと呼ばれる薄い膜を作り、それを一時的に開くことにより、その奥にある角膜実質層(角膜の中でも視力に対して大きな影響を与える層と思われる)に対しレーザを照射、当該層を変形させ視力を回復させるというものです。フラップは術後閉じられ(フラップは角膜実質層を蓋のように覆います)、時間の経過と共に自然に角膜実質層と癒着するそうなのですが、眼球に大きな衝撃を受けた場合稀にこのフラップがずれる場合があるらしく、激しいスポーツ、特に格闘技の類を嗜む方にはこの術式は推奨できないようです。

さて、そのような場合はフラップを作らない、前述のエピレーシックなる術式の出番となります。この手法は角膜上皮層と呼ばれる角膜の一番表層の部分をエピケラトームと呼ばれる薄い刃で削り、これによってフラップを作らずに角膜実質層を露出させ、そこにレーザを照射します。この方法はフラップを作らないため眼球に対する衝撃に強いというメリットがありますが、もちろんデメリットもあります。デメリットについては後述します。

術式が決まったのちは、手術日を決めることになります。西川は2011年4月21日にクリニックに初診として訪れ上述のアンケートへの回答、検査、術式の決定を行った後、一週間後の4月28日を出術日として予約しました。これはレーシック手術後は数日安静期間が不可欠で通勤などが不可能となるため、その期間をゴールデンウィークに充てようとの意図がありました。また、手術当日および手術から数日間は必ず経過を見せに通院しなければならないのですが、その際に安全上の理由から付添人が必要となるため、家族が休暇に入っているこの時期は好都合でした。

3. 手術
手術当日は仕事が休みであった妹に同行してもらいました。訪問後、まず簡単な検査を受けたのち、医師の診察を受けます。その後しばらく手術室前室のような部屋で待たされたのち、いよいよ手術です。

手術そのものは片目5分程度、両目を合わせても手術室に入ってから出るまで10分程度の簡単なものです。椅子の上に仰向けに寝かせられ、眼球に麻酔をかけたのち開瞼器を用いて瞬きが起こらないようにします。次はいよいよ上述のエピケラトームの登場です。麻酔がかかっているため痛みらしい痛みはないものの、謎の機械器具が突然視界に現れ、甲高い機械音と共に視界を横断していく映像は心胆寒からしめるものがあります。エピケラトームによって角膜上皮層を削った後はエキシマレーザの出番となり、眼球にレーザが照射されます。寝台の上で医師の指示通り正面に浮かぶ青い光を見つめるのですが、眼球に軽い衝撃があります。これがレーザが角膜を変形させている力なのでしょう。

さて、我々人間には通常眼球が2つあるため、同じことを2回繰り返すことなります。これが実に恐ろしいのです。一度目は何が何やら訳の解らぬまま終わるわけですが、もう一方の目の手術を行う際にはこれから行われることが解っているわけで、再びやってくる恐怖体験に怯えることになります。

4. 術後
さて、エピレーシックはフラップを作らないと上で書きました。これはどういうことでしょうか。エピレーシックはフラップを作るのではなく、眼球の表面を削るのです。手足の薄皮の一部が剥がされた状態を想像してください。それと同様のことを眼球表面で行うわけです。痛みの程度は人それぞれのようですが、僅かとはいえ身体の一部を削り取るのですから、痛みを伴います。西川は手術直後から強烈な痛みに襲われ、すぐに鎮痛剤のお世話になりました。

術後の患者がしばらく休息を取る部屋が用意されており、術後の患者はしばらくそこで休み、痛みがある程度落ち着いたのち、眼球を保護するための眼鏡をかけ帰宅することになります。眼鏡をかけても、手術直後はろくに目を開けていられない状態であるため、付き添いが必要になります。病院を訪問してから出るまで、時間としては概ね二時間程度だったと思います。

その日はもちろんそのまま帰宅し、翌朝まで熟睡しました。手術後3日間は経過観察の為通院しなければならないため、翌29日、30日、5月1日と連続で通院しました。ゴールデンウィーク期間中でしたので、主に妹に付き添いをお願いしました。痛みについては、西川の場合は鎮痛剤を飲んだにもかかわらずある程度強い痛みが2日程度持続しましたが、3日目には概ね収まりました。通院の度に検査を実施するのですが、比較的早い段階で両眼視力が1.0を越え、約1ヶ月後の検査では1.5に到達しました。

5. 感想
今となってみればもっと早く受けておけば良かったと思います。実際、裸眼視力が高く保たれている状態というのは実に快適なものです。1節に書こうか少々悩みましたが、感染症等、レーシックには確かにリスクがあります。まだ若い技術故の恐ろしさもあるでしょう。ただ、個人的にはレーシックはメリットがデメリットを十分上回った技術の一つだと結論し、実際に手術を受けました。

Windows Phoneは自然言語理解を武器に戦う

今日2011年5月29日日曜日の日本経済新聞7面に米マイクロソフトCEOスティーブ・バルマー氏へのインタビューが掲載されています。主な論点はマイクロソフトスマートフォン市場への取り組みに関するもので、ノキアとの提携、スカイプの買収についてや、競合するグーグルやアップルとの差別化についても言及されています。特に興味深いのは以下の部分で、引用します。

——グーグルのアンドロイドやiPhoneに対しウィンドウズフォンは何を武器に戦うのか。
「類似性の高い両陣営とは全く別の利便性を提供する。人々の仕事や生活を直接助ける道具にする。たとえば端末に『どこどこの日本食レストランを予約できないかな』と言えば、電話をかけはじめる。『ANA26便の搭乗券を印刷』と言えば、部屋のプリンターに印刷させるという具合だ」
「カギはグーグル的な検索とはまったく違う角度から言葉の意味をとらえ、反応する新種の検索エンジンになる。グーグルは、名詞中心主義で検索結果はウェブページへのリンクだ。我々は自然言語、中でも動詞に着目し、それに対する回答も単なるリンクの羅列でなく端末の動作にまで踏み込む」

このタスクに要求されるものは、音声入力を仮定する場合、大まかに分けて以下の3つのモジュールになります。

  1. 高精度な音声認識
  2. 認識結果の解析
  3. 解析結果のコマンド(端末の動作)への変換

さて、問題はこの最後の「解析結果のコマンド(端末の動作)への変換」ですが、これは以下の文献で扱われているタスクに他なりません。

これらのペーパーには、謝辞にマイクロソフトの支援を受けていると書いてあり、読んだ当時はマイクロソフトはこれを何に使うつもりなのかイマイチ理解できませんでしたが、漸く合点が行きました。スマートフォンに使うつもりのようです。

自然言語処理技術は実用化されてナンボというところがあります。2009年の文献はBest Paper Awardを受賞した非常に優れたものであり、このような高度な技術が実際に端末に搭載されると考えるとワクワクします。続報を待ちたいですね。

デルフォイの神託

IBMのWatsonが質問応答タスク(その出力において少々特異な形態ではありますが)において世界の頂点に立ちました。まさに、画期的ーーいや、この言葉は軽々しき使われ過ぎているので、言い換えると、まさにある種の時代を区切る出来事であったと思います。質問応答は、基本的には、ある時点(現在)以前の「事実」に関する問いに解答するというものです。その点において、後出しじゃんけんのようになってしまいますが、正直に申し上げて、質問応答システムがいずれ人間を破ることは自明なことと思っていました。これは決してIBMのエース研究者を乏しめるものではなく、そもそも極めて広範な質問に対する回答を要求されるタスク、すなわち極めて大規模な知識を仮定しなければいけないタスクにおいては、本来的に人間は機械に対して不利な立場にあると言わざるをえないと思っています。

さて、質問応答の次の目的地はどこでしょうか。先に申し上げたように、現在の質問応用はある時点以前の事実に対する回答を提供します。では、次に質問応答がすべきことは単純ですーーある時点以降の予測される事実に対する回答を提供することです。これは本質的に、自然言語処理研究者のみならず機械学習の分野で極めて盛んに検討されているもので、予測したい現象に何らかのモデルを仮定し、パラメータをアンケートや気象観測値、経済指標などを用いて、さらにそのモデルで計算を行うことによって解を得るものです。昨今話題の電気の消費量に関しては、当該地域の天候や曜日等から翌日の消費量について一定の予測を立てることが可能でしょう。

このような質問応答システムを突き詰めると何になるでしょうか?私はある種の予言、具体的にはデルフォイの神託のようなものになると思っています。もちろん、我々は数理的な予測モデル上で大規模な計算を行い、人間の知的機能を模倣することになります。少なくとも、要素に還元できるようなアーキテクチャであったとしても、疑問ーーというよりは悩める何人(なんぴと)に対して何らかの解を与えることができる機械は、もはやある種の神託ではないかと思います。

その実現可能性や社会との折り合いなど問題は多々ありますが、この神託(予言)を発する質問応答器というのには、工学の範疇を越えた面白みを感じています。

言語処理学会第17回年次大会に参加してきました

さて、ドタバタ続きで少々遅くなってしまいましたが、ちゃんと仕事の話も書きたいと思います。言語処理学会第17回年次大会(NLP2011)に参加してきました。

P1-15 文外照応を含む文の検出による抽出型要約の品質向上
○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎

いわゆる重要文抽出に基づく要約を行う際に、同一文中に先行詞を含まない照応詞(文外照応)が要約の中に含まれる場合、著しく要約の品質が損なわれるという問題があります。そのため、文外照応を含む文はその一つ前の文と連結させることによって、先行詞が要約中に含まれる可能性を僅かでも削減しようとするものです。

正攻法としては、1)照応解析器を使って代名詞の類を置換し、2)述語項構造解析器を使って省略されている要素を補う、ということになるかと思います。一方、本研究を進めるにあたっては、以下のような外的な制約がありました。

  1. 実用上の理由から、浅い解析に基づく特徴量しか使えない
  2. (特に1番目の制約下において)現時点での照応解析技術の精度が必ずしも十分でない
  3. 解析に失敗した場合、元々の文意と異なる文が生成される恐れがあり、そこに商業上のリスクがある

そのため、上述の正攻法を取ることができず、今回お話させていただいたアプローチを取ることになりました。文外照応を含むと予測された文を要約器の入力から除外することもできましたが、その場合今度は要約器に対して十分な入力を供給できなくなる恐れがありました。

本件、なかなか時間的制約が厳しく難儀しましたが、時間内に上の条件を満たす最良の解を見つける問題解決の実践として、辛いながらも、個人的には楽しんでやっていました。まあ、喉元過ぎれば何とやらではありますが……。

いわゆる純粋な研究の場合だと上述の1のような条件はあまり設定されませんし、また例えば一週間で一定の性能を持った機械を無理矢理でっちあげなければならないということも然程多くないと思います。ですので、今回こういった仕事ができたのはずいぶん良い経験になりました。加えてワークショップ「自然言語処理における企業と大学と学生の関係」も開催され、言語処理の応用について広く議論される中でお話が出来たのは幸運でした。お聞きくださった皆様も「解析に失敗し元々の文意と異なる文が生成されることのリスク」あたりを面白がってくださり、生々しい制約が課せられた言語処理タスクの面白さをお伝え出来たかなと思っています。

豊橋行状記

NLP2011のため豊橋に行ってきました。仕事(研究)に関する話はまた別途書きたいと思いますが、まずは豊橋での生活など。

    • @overlast さんの引きの強さに驚愕するなどし、楽しく食事をする。
  • 2日目(本会議1日目)
  • 3日目(本会議2日目)
    • 懇親会。京大の皆様のボーリング熱に仰天する。12ゲームこなしてから仕事をするらしい……。
    • その後同僚の @sleepy_yoshiもんじゃへ行く。彼は以前月島に日参していたらしく、もんじゃ作りがとんでもなく上手かった……。

  • 4日目(本会議3日目)
  • 5日目(ワークショップ)
    • ワークショップ中、件の大地震が発生。ワークショップそのものは最後まで開催された。
    • 上りの新幹線が運休となったため、ワークショップ後帰宅を予定していた参加者が帰宅難民に。ホテルにもう一泊することになる。
    • これはもうどうしようもないとまた @kimuras さんと今度は焼肉に行く。

お前は何をやっているんだ、という感じですね。ちょっと太ってしまいました。他に豊橋の名物としてふぐがあるそうで、ふぐに着手できなかったのが残念です。

会期中、楽しく過ごしていましたが、地震以後、まるで世界の様相が変わってしまいました。遠い昔のことのようです。