現在、情報分析研究室で行なっている研究は以下の三つです。
音声・言語資源分野の研究開発を推進する「MASTARプロジェクト」の開始に伴い、産学官の連携により研究開発と成果の普及展開を進めるために「高度言語情報融合フォーラム(ALAGIN - Advanced Language Information Forum)」を設立しました。会長は辻井潤一東大教授、副会長は喜連川優東大教授と松島裕一情報通信研究機構理事であり、60社を超える企業、および、60名を超える大学関係者がメンバーです。フォーラムの目的は、産官学を巻き込んで、一層の技術共有、リソースの共有を図り、研究の効率化を図るとともに、出口としての将来のアプリケーション像を明確にするための議論を行うことです。
こうした活動の一環として、言語資源配信サイトを立ち上げ、音声・言語資源とツールをフォーラム会員に向けて配信を開始しました。具体的に平成21年度に配信を予定しているものは以下の通りです。
このうち、音声対話コーパスは音声コミュニケーション研究室が構築しています。単語クラス抽出サーバー、意味関係抽出サーバーは平成21年度開発予定の項目です。これらのサーバーは、例えば、Webサービスで特定の単語クラス(e.g., 自動車の部品)や意味的関係(e.g., トラブル-対策)が必要になった時に、Web文書の情報をもとにフォーラム会員がそれらを作成できる機能を持ちます。サーバーの運営は情報通信研究機構が行います。これにより、自然言語処理を用いたWebサービスの開発を効率化することが狙いです。その他の言語資源、ツールについては、下記(2)をご参照ください。
用例ベースは機械翻訳性能の向上のために必須の言語資源です。用例ベースとしては、言語翻訳グループと共同で、合計150万文対を構築しました。内訳は、京都観光情報を対象に人手による翻訳50万文、既存用例ベースに対して言い換えを適用して新たに自動生成した50万文、ソフトウエアLINUXやインターネット標準文書RFCに関わる複数の翻訳者コミュニティ作成の散在しているWebデータから自動抽出した50万文からなります。これにより平成19年度までの成果と合わせて日本語に関しては前例を見ない合計584万文対の用例ベースを構築したことになります。これらは、著作権等の権利関係の問題が解消されたものから順次、高度言語情報融合フォーラムにおいて公開する予定です。
億単位のWeb文書から自動獲得したものをベースに言語辞書の構築を進めました。対訳辞書として50万語規模のものを機械学習やパターンマッチングによって新規に構築した他、日本語に関する概念辞書のカバレージを平成20年度頭の130万語から180万語へ(上位下位関係)、50万語から100万語へ(上記の「文脈類似語データベース」)と世界最大規模へ拡張しました。文脈類似語データベースは、約100万語の名詞に対して、Web文書上での文脈が類似している名詞を類似度とともに順に列挙したもので、高精度な類義語データベースとして利用でき、例えば、地魚の一覧を含むクラスなどが入手できます。上位下位関係については、上位下位関係抽出ツールを開発、公開し、上位語リストも整備しました。上位語リストは、上位下位関係抽出ツールの出力を補完するものです。ツール自体はWikipediaから100万語以上をカバーする上位下位関係を抽出できますが、この上位語オントロジーを併用することでより高い精度の上位下位関係が入手できます。
また、新たに因果関係、含意関係等の新規な単語間の意味的関係をWeb文書から自動獲得し、動詞含意関係データベース37000対(約7000対の正しい含意関係の他、機械学習の負例用に含意関係にない動詞対も含む)、上位下位関係100万対、負担・トラブル表現リスト約2万を人手で検証しました。動詞含意関係データベースは、含意関係が成立している動詞のペアを辞書順に列挙したもので、動詞1が動詞2を含意するとは、動詞1が成立するなら、動詞2も成立しているということを意味します。例えば、「試乗する」は「運転する」を、「挑戦する」は「チャレンジする」を、「チンする」は「加熱する」を含意します。負担・トラブル表現リストは、災害や病、障壁や規制など、人間の活動に負荷を与えたり、マイナス効果をもたらしたりする事物に関する表現を集めたものです。このリストは、我々が開発した検索支援システム「鳥式改」(鳥澤他、情報処理学会学会誌「情報爆発特集号」, 2008.8)でも利用されており、これによって意外なトラブルを網羅的にネット上で検索することが可能となります。
さらに、英語版概念辞書の開発にも着手し、330万語をカバーする上位下位関係データベースを構築したほか、日本語WordNetの開発を昨年度に引き続いて行い、規模は約8万語となりました。日本語WordNetについては、一般公開後、多数のダウンロードが行われ、活用ツールが国内外で開発されています。
一般公開中の日本語WordNetの例(左)とウェブインターフェース(右)
知的自然言語処理技術の基盤となる形態素解析に関しては、日中タイの各言語に関してstate-of-the-artの精度を達成し、構文解析に関しては中国語で世界最高の精度を達成しました。それぞれ機械学習に基づく手法を採用しており、形態素解析器、構文解析器は、モデルとともに、高度言語情報融合フォーラムで公開する予定です。タイ語に関しては、平成21年2月6日〜8日に開催された単語分割に関するコンテスト(Benchmark for Enhancing the Standard of Thai language processing (BEST) 2009)にKasetsart UniversityのChuleerat Jaruskulchai准教授と共同で参加し、優勝を果たしました。このコンテストには大学、企業から20チームが参加し、決勝に残ったのは6チームでした。強豪がひしめく中での価値ある優勝です。
知的自然言語処理技術としては、概念辞書を用いてWeb上の情報をアナロジーによって検索するシステムの開発を行い、リスク管理、イノベーション支援において有効であるとの示唆を得ました。具体的には、社会的にインパクトを持ち得る意外なトラブルやネットのいわゆる暗部での意外な議論、情報を多数発見することに成功しています。こうした成果は昨今のWebの急激な普及、いわゆる情報爆発に対処する上で非常に重要な技術です。