単語辞書
単語辞書は単語辞書レコードの集合であり(下図)、各単語辞書レコードは見出し情報、文法情報、
及び運用・その他の情報から構成される。
見出し情報は、単語見出し、不変化部分ー連接属性対、かな表記(日本語)/音節区切り(英語)、発
音から成っている。単語見出しは活用するものはその原形、活用しないものは単語の綴りがそのまま記入
される。英語の不規則活用は各活用形が見出しとなる。不変化部分とは活用語が活用する場合の純粋に文
字列としての不変化部分であり、必ずしも語根を意味しない。連接属性は、その語が使用される時の隣接
する単語不変化部分(形態素)との接続制約を示す記号である。日本語単語辞書におけるかな表記及び発
音は単一語についてのみ記述されている。かな表記は、かな漢字変換を行ったり、文章の読みを求めるた
めに使用される。また、発音は音声合成などに使用される。英語単語辞書に於いては、かな表記の代わり
に音節区切りが記され、ハイフネーションに使用される。発音はIPA(International Phonetic Alphabet)
を用いて記述される。
文法情報は、品詞、構文木、機能語情報に加えて、日本語では活用情報、表層格情報、相情報、英語で
は語形情報、文法属性から構成される。これらの情報は、文の構文的な構造を見つけだすための構文解析
や、ある意味を文章で表現するときにどういった構造の文を作るのかを決めるための構文生成で使用され
る。構文木は単一語でない単語見出しのみ記述されている。機能語情報は、日本語に於いては、助詞・助
動詞及びこれらに相当する語の他、形式名詞、数詞、接続詞に記述されている。英語に於いては前置詞・
助動詞及びこれらに相当する語の他、接続詞・接続副詞、関係代名詞・関係副詞・疑問代名詞・疑問副詞
に記述されている。日本語における活用情報は、用言や助動詞など活用する語にのみ記述されており、表
層格情報は、格支配を行う用言にのみ記述されている。相情報は動詞にのみ記述されている。英語におけ
る語形情報は、動詞、名詞、形容詞、副詞、及びそれらの語尾に記述されており、文法属性は、語の文法
的振る舞いを示すもので、動詞、名詞、形容詞、副詞、及び限定詞に対して記述される。
意味情報は、概念識別子と、それに付随する情報として概念見出しと概念説明から構成される。概念識
別子は概念辞書の基本構成要素である概念に関する情報であり、数として表現され、概念の同一性を保持
する目的のためのものである。概念見出しは、その概念を表現するのに最も適した代表語である。概念説
明は文章による説明で、ある概念と他の概念との識別を人間が行い易くするためのものである。概念は単
語辞書に於いては単語の多義性を識別するための情報であり、一般の辞書における語義に相当するが、言
語に対して独立に設定される点が異なる。概念識別子は概念辞書へのリンク情報となっている。
運用・その他の情報は、用法及び頻度から成る。これらは、文解析や文生成における尤度の評価などに
使用できる。