「ずるっこ!」が素晴らしい
@overlastさんのエントリを見て「ずるっこ!」なるサービスを知りました。このサービスはウェブページが含む英単語の脇にその単語に対応する日本語の訳語を表示してくれます。加えて、その単語をクリックすることでその単語はユーザにとって既知のものとしてサーバに記録されると同時に、脇の訳語が消えます。@overlastさんがお書きになっているように、英語で書かれたウェブページを読解する際の、未知の単語の意味を知るために辞書をひく時間が劇的に減るため、英語学習者には福音とも言うべきサービスと思います。
さて、この三連休でWikipediaのエントリをいくつか読み、現在2309単語を登録しました。今のところの印象を書きたいと思います。
まずは良いところ。
- 和英辞典の類をひく時間が劇的に減少する。
- 自分の持っている語彙が外化される。自分が知っている単語の集合が明らかにされる。
改善点は以下の点。
- 知らない単語は発音も判らない場合が多いので、発音記号も一緒に出てきて欲しい。
- コロケーションの問題。現状、例えば``San Francisco"は``San サナトリウム Francisco フランシスコ"となって出てくる。``bring up"のような句動詞にも対応できない。当然``take A into account"のような途中にある種の単語を挟むコロケーションにも対応できない。
さて、先ほど浴室で身体を洗いながら自分ならどうするか考えてみました。
- まず``take A into account"や``compare A with B"のようなある種の変数を挟むコロケーションは扱わない。対応が難しいため。
- ``bring up"のような複数の隣接する単語から構成されるコロケーションは辞書中に存在すればそちらを提示する。``bring"と``up"を関係のない単語として扱った場合もうまく見せられそうであれば表示しておく。
まあ、つまらないですが、割と妥当な結論だと思います。個人的には、心的辞書が単語の一覧という形とはいえ外化される点に堪らない魅力を覚えます。これはすごいライフログなのではないでしょうか。
2011年の抱負
某サービスのローンチのため今週頭くらいまでは2010年のロスタイムという感が強く、昨日今日で漸く年が明けた感があります。皆様あけましておめでとうございます。お陰様で無事、何はともあれ立ち上がりました。
諸賢の猿真似で私も本年の抱負など書き連ねたいのですが、どうも目標はあまり公言しない方が良いらしいという話もあるようで。まあ、確かに、大きな目標を公言してドヤ顔を煌めかせ満足してしまうというのは私自身思い返しても恥ずかしながら記憶のあるところであります。そうとはいえ、いくつか目標など書いてみようと思います。
まず仕事の上では:
- 論文2本
- 国際会議2本
昨年は研究というより開発をしていたのでなかなかネタを仕込むことができず今年はなかなか苦しそうですが、何とか持っていきたいと思います。正直なところ、昨年はどうにも多忙でありまして、今年は少しゆっくりしたいと思っていたのですけれども、明治神宮に参詣したところおみくじにて以下のような神慮を賜りました(意訳)。
先人たちは日々努力して今日の繁栄を築きました。世は日進月歩であります。ぼやっとしていると世の中に置いていかれてしまいます。日々努力しなさい。
何と申しますやら、まさしく研究職向けの神言でございまして、心を新たに本年も修羅の如く仕事をしたいと思います。
勉強としては:
- 数学
- 計算機科学(プログラミング、アルゴリズム、データ構造)
- 英語
この3点を、基礎をじっくり強めていきたいと思っています。
まあ、こうまで言って何ではありますが、仕事や勉強よりも、今年はもうちょっと見聞を広めたいと思っています。広くて、よくわからないところに行きたいですね。考えているところとしては:
とにかく、広いところに行きたいです。
今年は自分にとって特別な年になると思います。良くも悪くも、多くの決断を迫られるのであろうと、予感がします。
2010年の商いを振り返る
一回ブログでやってみたかったんですよね、これ。今まであまり過去を振り返らない脳筋的な人生を送って来たので……。思い立ったら吉日ということで、ちょうど大晦日ですし、2010年の商いを振り返ってみようと思います。
まず出版物。筆頭、共著問わずに時系列に列挙します。
- 長谷川隆明, 西川仁, 今村賢治, 菊井玄一郎, 奥村学. 携帯端末のためのWebページからの概要文生成. 人工知能学会論文誌, Vol.25, No.1, pp.133-143, 2010.
一昨年から昨年の初頭にかけて手伝っていた仕事の内容が無事論文化。採録されるか否かについては他人事ながら結構やきもきしていました。
- 西川仁,長谷川隆明,松尾義博,菊井玄一郎.文の内容性と連接性を目的関数とする複数の評価文書の要約. 言語処理学会第16回年次大会予稿集, 2010.
昨年半ば頃から進めていた仕事を3月の言語処理学会で発表。sentence extractionとsentence orderingを同時に行う要約モデル。デコードはDPで探索空間を縮めつつビームサーチ。初日朝一発目の発表で、教室がやたら寒かった覚えがある。
- Hitoshi Nishikawa, Takaaki Hasegawa, Yoshihiro Matsuo and Genichiro Kikui. Optimizing Informativeness and Readability for Sentiment Summarization. In Proc. of ACL, 2010.
上の言語処理学会の発表と基本的には同じ内容。今年のshortはずいぶんcompetitiveで、蓋を開けてみると文書要約分野の採択率は何と2/17という狭き門でした。
- Hitoshi Nishikawa, Takaaki Hasegawa, Yoshihiro Matsuo and Genichiro Kikui. Opinion Summarization with Integer Linear Programming Formulation for Sentence Extraction and Ordering. In Proc. of Coling, 2010.
sentence extractionとsentence orderingを同時に行う要約モデルを、ILP(整数計画問題)として定式化したもの。orderingのパラメタの学習法も少々改良。レフェリの一人にずいぶん褒められ、非常に励まされた。大急ぎで書いたものなので見苦しいところが多々あるけれど、思い入れの深い一本。
- Ryuichiro Higashinaka, Yasuhiro Minami, Hitoshi Nishikawa, Kohji Dohsaka, Toyomi Meguro, Satoshi Takahashi and Genichiro Kikui. Learning to Model Domain-Specific Utterance Sequences for Extractive Summarization of Contact Center Dialogues. In Proc. of Coling, 2010.
同僚の仕事をちょっとだけ手伝ったもの。音声対話を認識したものを要約する。
- Ryuichiro Higashinaka, Yasuhiro Minami, Hitoshi Nishikawa, Kohji Dohsaka, Toyomi Meguro, Satoshi Kobashikawa, Hirokazu Masataki, Osamu Yoshioka, Satoshi Takahashi and Genichiro Kikui. Improving HMM-Based Extractive Summarization for Multi-Domain Contact Center Dialogues. In Proc. of SLT, 2010.
上の発展版。デコーダの部分を担当。この要約モデルはずいぶん気に入っている。この一本で、研究のような属人性の高い作業において、どうすればうまく協力して仕事ができるのか、非常に勉強になった。
今年は結構いろいろ書きました。研究としては昨年一年で溜め込んだものを出したという感じ。あとはつらつらと。
- 1月
- 2月
- 3月
- 言語処理学会。
- 終わってからColingの原稿に着手。
- 式を作るところから始めたので、非常に大変だった。
- 4月
- Colingの原稿。
- 要約研究の大変さを思い知る。
- 5月
- GWは西日本方面に鈍行一人旅。
- 6月
- 仕様書のレビューなど。
- SLTの原稿のお手伝い。
- 何かと忙しい時期で、今年一番大変だったかも。
- 7月
- いろいろ考えさせられた一ヶ月。
- 8月
- 北京で羽を伸ばす。
- 頤和園で迷う。
- 天壇が最高でした。
- 9月
- NLP若手の会懇親会で飲み過ぎ、二次会でU野さんやO倉さんに絡む。
- 後日同僚のM黒に怒られる。
- 反省。
- 10月
- あまり記憶がない……。
- 11月
- 12月
- O倉さんに2000円を返却。
今年は新しい出会いがたくさんあったのが良かったですね。あと今年は全般的に飲み過ぎました。来年はもうちょっとお酒を控えたい。それでは皆様、良いお年を。
第3回自然言語処理勉強会で発表してきました
少々間が空いてしまいましたが、先週の日曜日11月7日、第3回自然言語処理勉強会で発表させていただきました。内容としては、自然言語処理において名高い教科書の一つである Foundations of Statistical Natural Language Processing の第3章 Linguistic Essentials を解説しました。
Foundations of Statistical Natural Language Processing (The MIT Press)
- 作者: Christopher Manning,Hinrich Schuetze
- 出版社/メーカー: The MIT Press
- 発売日: 1999/05/28
- メディア: ハードカバー
- 購入: 3人 クリック: 169回
- この商品を含むブログ (18件) を見る
以下は発表の際に用いたスライドです。
トークの際には時間の関係上省いたスライドを追加しています。
FSNLPは全編に亘って数式が飛び交う、まさに statistical な教科書なのですが、第3章は自然言語処理の基礎となっている、言語学に基づく概念を説明する章になっています。自然言語処理と言語学の関わり合いについてはまた別の機会に書きたいと思いますが、非常に個人的な動機としては、言語学で学位を取った同僚がいるので、その同僚が宇宙語を話し始めた際にも意思疎通を図ることができる程度の言語学に関する知識が私の場合必要です。
失敗談
ここ半年ほど関わっていた案件があって、同僚と一緒にモデルを作っていたのだけれども、先週末どうやらそのモデルが非常に単純なモデルに簡単に敗北するということがわかった。敗北といっても、ある一定の尺度においての話で、一概に優劣を与えられないのだけれども、あまり気持ちの良いものではない。反省として、改めて以下の3点に注意したい。
1. すぐに思いつく手法をまず適用して様子を見る
この案件の為に作ったモデルはある程度複雑な構造を持っているもので、それなりに工夫がある。しかし、複雑なモデルを作り始める前に、まずはすぐに思いつく単純なモデルをあてて様子を見るべきであった。
2. 類似した問題に対して適用したモデルをそのまま横滑りさせない
今回扱った問題に対して、個人的にこれまで解いてきた経験のある問題と類似、あるいはほぼ同様の問題だとみなしてモデルもほぼそのまま横滑りさせて適用したが、結果としては、似て非なる問題だった。
3. 事前に現象を十分に分析する
結論としては、この3点めが最も重要と思う。事前に十分モデル化しようとしている現象を分析、吟味していなかった。
こんなことは当然のことなのだけれども、おろそかにしていた。