IPA成果物のページ
以下のソフトはIPAの
創造的ソフトウェア育成事業の一環として、NICTが
東工大・田中/徳永研究室及び東大・辻井研究室との共同プロジェクトとして
実施した「知識ベース増殖のためのソフトウェアの開発」の成果物です。
一部のプログラムを除き、成果をフリーソフトウェアとして公開する
予定です。
目的及び目標
本プロジェクトの目的は、言語知識を自動獲得するシステムを使うことに
よって、日進月歩で進歩する社会変化に対応するためのベースとなる言葉に関する
知識を自動的に各種情報システムに取り込むことを可能にすることである。このシ
ステムを広く普及することによって、企業、研究機関、個人等で必要となる情報
システムの社会変革への対応を迅速化する。
本プロジェクトの目標は、電子化文書から新用語や新概念などの言語知識を自動
的に取り出し、情報システムが持つ知識ベースを自動的に増殖させることを可能に
する計算機システムを開発することである。
概要説明
本システムは、次図に示すように、
汎用のUNIXワークステーションとその上で動くソフトウェア
から構成される。ユーザは言語知識をその中から抽出したいと希望する電子化文書
の各文を本システムに投入する。その文は言語知識抽出ソフトウェアの入力となる
。言語知識抽出ソフトウェアは、文書解析プログラムと各種知識抽出・整合プログ
ラムによって構成されおり、入力された各文はまず文書解析の入力となる。文書解
析では、知識ベース管理ソフトウェアで管理されている語彙・文法等の言語知識を
使って、形態素解析や構文解析を行い、その解析結果を各種知識抽出・整合プログ
ラムに渡す。それぞれの知識抽出・整合プログラムは、解析結果(1文の解析結果
、あるいは、必要により複数の文の解析結果)の中から語彙や文法、概念関係知識
(=意味)やテキスト知識を抽出する。これら抽出された知識の種類によっては、
抽出した知識のチェックや修正などをユーザに依頼する場合がある。
抽出されたこれらの知識は、知識ベース管理ソフトウェアにより、それぞれに対
応する知識ベースに格納される。知識ベース管理ソフトウェアは、それぞれの知識
ベースに対応し、語彙・文法知識管理プログラム、概念関係知識管理プログラム、
テキスト知識管理プログラムで構成されている。各知識管理プログラムは、それぞ
れの知識ベースに既に格納されている各知識に加え、上記のプロセスで新たに抽出
されたそれぞれの知識を追加する。
言語知識ベース(語彙・文法知識ベース、概念関係知識ベース、テキスト知識ベ
ース)は、ディスクに格納される。文書解析等に必要となる各知識の初期データと
しては、EDR電子化辞書を利用する。そして、各知識ベースは、上記の言語知識
抽出ソフトウェアおよび知識ベース管理ソフトウェアを汎用ワークステーション上
で稼働させることによって、自己増殖的に知識の充実が図かれるようにする。
各コンポーネントの説明
- −解析系ソフト・・・東工大・田中/徳永研究室との共同
-
- 文書解析(MSLRパーサ)
- 一文単位に切り出された日本語文に対して、形態素に関する文法情報と
形態素間の接続条件に関する情報を利用して、入力された文を形態素に
分割して形態素列を出力する機能を提供する。また、形態素間の
構文的な構造を推定し、構文木を出力する機能を提供する。
- 確率文法規則獲得
- 構文構造の情報が付加された文例集である括弧付きコーパスから
確率付き文法
規則を獲得する機能を提供する。ここで言う文法規則は確率が付与
されている以外、文法ルールと同じ形式とする。
→上記成果物のうち、MSLRパーサの最新プログラムは
東工大・ 田中/徳永研究室のホームページで公開される予定です。
本プログラム群は、文章を解析するツールとして利用できます。
- −知識抽出系ソフト・・・東大・辻井研究室との共同
-
- 中央データベース(コーパス生成支援)
- 日本語文に対して形態素・構文解析を行った結果から、
正しい形態素タグおよび
構文木を付与したタグ付き構文木付きコーパスの生成を支援する機能を提供する。
- 語彙知識抽出
- 文書解析の結果を受け、形態素列を構成している形態素の並びの情報および
形態素を構成している文字の並びの情報に基づいて、名詞句部分の判定と
表記のゆれの判定、専門用語・固有名詞の判定を含む語彙知識に関する知識を
抽出する機能を提供する。
- 共起知識抽出
- コーパスにおける単語間(あるいは、単語が表す概念間)の共起性に関する
知識を抽出する機能を提供すると共に、語彙知識抽出の結果を受け、
名詞複合語の内部構造を推定する機能を共起知識抽出機能を用いて提供する。
- 概念間の意味関係抽出
- 語彙知識抽出、共起知識抽出の結果を受け、概念間の意味的関係を抽出する
機能を提供する。
→上記成果物は、内容をブラッシュアップし、いずれ公開する予定です。
その時点でアナウンス致します。
- −知識管理系ソフト
-
- 語彙・文法知識管理
- 語の表記、読み、品詞、連接情報からなる「語彙・文法知識」を管理する機能を
提供する。この「語彙・文法知識」に対して、新たな知識と判定された
知識の登録機能と内容の更新機能、および、蓄えられた知識の内容を出力する
検索機能を提供する。
- 概念関係知識管理
- 2つの概念と1つの概念関係子で構成される概念関係知識を管理する
機構を提供する。
- テキスト知識管理
- テキスト(文書)を解析した結果である形態素情報と構文情報を
含むテキスト知識を管理する機能を提供する。
→上記成果物をベースにしたプログラム(EDR辞書管理システム)を
辞書利用
支援ツールの一つとして公開しています。
本システムでは、以下のEDR辞書を格納し、検索・表示を行なうことが
できます。
- 日本語単語辞書
- 日本語コーパス
- 概念(見出し、体系、記述)