Q: EDR電子化辞書の改版内容について A: 以下に各辞書の改版内容を示します。 =============================================== JWD.NOTE 3月改版 日本語単語辞書の 1.5版からの主な改良・拡張は以下のとおりです。 a.自立語 ○固有名詞の追加 EDRでは、固有名詞についてはユーザによって必要な語彙が異な るため、各ユーザレベルで個別に分野依存の語彙を追加することを前 提としている。 しかし、今回の改良で、人名、地名など一般的に良く使われる可能 性が高いと思われる固有名詞やコーパス中の高頻度固有名詞について は対応しようということで、以下のような範囲の固有名詞に ついて、「人名、地名、組織名」といった分類コードを用法フィー ルドに明記した上で、追加を行なった。 ・コーパス中の高頻度未知語中の固有名詞登録(87語) コーパス高頻度未知語中の固有名詞を登録した。 ・H8形態素解析結果からの固有名詞取り込み(70語) コーパス形態素解析結果の検討作業で、固有名詞の未知語 で問題になっていた部分を補強するため、固有名詞関係の登 録を行なった。固有名詞の分野の分類から単語登録、概念体 系登録を含む改良を行なっている。 ・日本の人名(4472語) コーパス中で未知語になった日本人名を姓と名に分けて登 録した。 ・区町村レベルの追加(3065語) 都道府県市迄登録してあったが、97年度区町村レベルも 追加した。 ・既存元号(前置助数詞)の分類(301語) 上記作業に従って、用法フィールドの値が追加されている。 ○3文字漢語の登録 EDR辞書に存在しない3文字漢語見出しを見出しとして登録必要か どうか検討し、登録を行なった。 (242語) ○サ変名詞 「サ変」として扱われる語を新聞記事から抽出し、EDR辞書と照合 して不足したものを追加した。 ・サ変名詞の見出しレベル追加(163語) ・サ変名詞の概念レベル追加(56語) ・既存の普通名詞に対してサ変名詞の追加(190語) ○異表記の登録 現EDR辞書データは見出しとしては登録されているが通常使われる ことの多い、ひらがな・カタカナ・混ぜ書き表記が不十分であった。 コーパス中で未知語になった異表記を登録することにより実践的な強化を 図った。 ・コーパス中の異表記の追加(8523語) ○コーパス中の高頻度未知語の追加(232語) 「異表記の登録」と同様に、コーパス中から未知語を抽出し、高頻度 のものを追加登録した。 b.付属語 ○接尾語・接頭語の追加/修正(300語) 接辞に関しては、 1)接辞であるかどうか。 2)接辞であるとした場合、現在の連接属性の境界が不明確な部分が ある。 などの問題があり、接辞に関する品詞づけおよび連接属性の定義から再 検討を行ない、EDRコーパスの実例にあたりながら、接辞の分類を行なう とともに接辞分類の基準を作成し、辞書に反映した。 ○複合的な 助詞・助動詞相当語の追加 いくつかの単語が複合して、機能的に助詞や助動詞相当になる複合的な 付属語を追加した。 ・助動詞相当語(JJP)候補:52語 ・助詞相当語(JJ1)候補 :88語 ○助詞連接属性の細分化(追加143, 削除68, 修正9019) 助詞の連接属性が粗かったために平仮名文字列の解析誤りが多いとい う問題が指摘されていた。 1.5版での助詞に関する連接属性では、格助詞(を、に、から、 まで、...)、副助詞(だけ、など、ほど...)など助詞の種類レ ベルで連接がまとめられており、実際はありえない助詞連続も生 成可能になってしまう。 EX. 格助詞どうしの接続が可能な部分と不可能な部分 × を-の ○ から-の そこで、助詞の「が」「を」「から」といった単語レベルぐらいに 助詞連接を細分し、連接関係の制限をより限定した。従来の助詞連接 属性は助詞細分品詞別(左連接属性:25、右連接属性:10)に定義さ れていたが、これを助詞表記および助詞細分品詞別(左連接属性:126、 右連接属性:126)に再定義した。 ・助詞の連接属性修正(230語) ・助詞相当語の連接属性修正(86語) ・助詞・助詞相当語以外の機能語の連接属性修正(825語) ・イディオム中の連接属性修正(7949語) c.一部情報の訂正 ○古語のレベルづけ(補助情報) (19262語) 単語辞書中には通常処理する文書中には現れないような古語や外来語 なども含まれており、解析時の曖昧性の増加の一因となっていることが 指摘された。 そこでユーザが利用目的によって,語彙の制限(選択、削除等)をできる ように、該当するレコードの用法フィールドにそれを示すコードを付与 した。 ○固有名詞分類記号の細分 (4709語) 「固有名詞の追加」にともなって、EDR辞書1.5版に登録されている 固有名詞を内容別に細分し、用法フィールドの変更を行なった。 ○副詞的名詞の連接情報の訂正(250語) 名詞および副詞の境界がゆれる語について、後接する語の状況によって、 品詞の見直しを行なった。ここでは、これらを名詞周辺語とし、これらを品 詞組合せのグループとしてとらえ、グループの定義を明確にするとともに、 後接する語によって決まる連接属性をこのグループ単位で変換する対応表を 作り、より詳細な連接属性を付与した。 ○コードの組み合わせの不良チェック(774語) EDR日本語単語辞書レコードの中で、品詞・連接属性・活用形・活用型な ど、いわゆる文法情報に入るコードの組み合わせの頻度が低いものがある。 これらは誤りを含む可能性が高いため辞書情報をチェックした。 (3)ユーザー指摘のバグ対応 EDRに寄せられたユーザからのレポートに対応した。(64語) ============================================== CP.NOTE 3月改版 概念辞書(V2.0)は、1.5版に対して以下のような改良が行なわれております。 ・概念体系の1.5版からの主な改良・拡張は以下の通りです。 (以下の3項目で約7700のリンク情報が追加/修正されています) (1) 単語追加に伴う概念登録追加 サ変名詞、固有名詞の追加などに従い、新規概念を追加したものについて 概念体系への登録を行ないました。 (2) いろいろ概念対応 1.5版において、上位のノードに分類されたままの概念「いろいろな〜」 という概念説明の部分に分類されているものについて、他の分類に合わせて 分類の細分を部分的に行ないました。 (3)問題別バグの処理 個別に見つかった、配置誤りの概念について、体系上の適切な位置に配置 替えを行ないました。 ・概念見出しの1.5版からの主な改良・拡張は以下の通りです。 (1)単語辞書の改良に伴って、約4200レコードの意味情報が追加されました。 (2)単語辞書の改良に伴って、約400レコードの意味情報が修正されました。 (3) 中間ノードの翻訳 上位レベルから5段までに英語概念説明を付けました。(約2400) ・概念記述の1.5版からの主な改良・拡張は以下の通りです。 (1)問題別バグの処理 個別に見つかった、リンク誤りの概念記述情報について、適切なリンク情 報に変換しました。 (約160のリンク情報を修正) =============================================== JEB.NOTE 3月改版 日英対訳辞書(V1.6)の 1.5版からの主な改良・拡張は以下のとおりです。 (1) 日本語単語辞書の変更に伴う変更 修正された日本語単語辞書に対応する対訳辞書に同様の修正を 行ないました。 ・概念識別子の変更(約200語) ・品詞の変更(約100語) ・表記の変更(約100語) ・削除(約300語) 削除したレコードは、日本語単語辞書の統合処理に より該当レコードが他の語に吸収されたため削除した ものです。 (2) 対訳情報の修正 対訳情報の一部を修正しました。(30語) (3) 概念説明の変更 英語概念説明を書き換えたことにより、対訳辞書レコードの内容が 変更されました。(約3000レコード) ================================================== JCC.NOTE 4月1日改版 日本語共起辞書(V2.0)は、1.5版に対して以下のような改良が行なわれております。 (1)意味情報の見直し結果を反映   日本語共起辞書中に使われている概念において、概念体系上に分類さ  れていないものを調査し、修正しました。   約 1500 概念を見直し、約26000レコードの修正が行なわれています。 (2)概念関係子の見直し    "-b"類の概念関係子が仕様書に記述されていませんでしたが、その 概念関係子の概念関係(受け側概念、掛かり側概念)を見直し、該当 概念関係子をマニュアルに定義されているものに変更しました。 日本語動詞共起パターン副辞書の1.5版からの変更点は以下の通りです。 (1)概念識別子の見直し   日本語共起副辞書中に使われている概念において、概念体系上に分類さ  れていないものを調査し、修正しました(約 6000レコード)。 ================================================== JCO.NOTE 4月30日 日本語コーパスは、1.5版に対して以下のような改良が行なわれております。 ・数量などの範囲を表現した句が出現した場合の構文情報を修正しました。   約580文 ・日本語共起の意味情報の修正によって、コーパス上の該当概念の修正を  行なう予定で準備しています。 ================================================== EWD.NOTE 4月30日改版 英語単語辞書(V1.8)は、1.5版に対して以下のような改良が行なわれております。 ・意味情報を改良しました。   英語単語の示す概念を介して日本語単語までリンクされていないものを  調べ、約2000の英語単語の意味分類を行ないました。   現在も引続き分類作業が続けられており、4月中旬までに行なわれた分を  加えて合計3000概念が改良されると想定しています。 ================================================== EJB.NOTE 4月30日改版 英日対訳辞書(V1.6)は、1.5版に対して以下のような改良が行なわれております。 ・英語単語の概念の見直しにともなって、意味情報(概念ID)の修正が行な  われています(2000〜3000単語)。 ================================================== ECC.NOTE 4月30日改版 英語共起辞書(V1.6)は、1.5版に対して以下のような改良が行なわれております。 ・英語単語の概念の見直しによって、同様の修正が行なわれています。   約2000概念。 ・英語コーパスは共起に従って、約2000の概念の修正を行なう予定ですが、  作業工程上、提供時期は不明です。 ================================================== ECO.NOTE 4月1日改版 専門用語辞書(V1.6)は、1.5版に対して以下のような改良が行なわれております。 各辞書間の整合性をチェックし、以下のような修正を行ないました。 ・日本語単語 レコードの文法属性、概念情報を修正しました(10レコード)。 追加レコード(約30レコード)。 ・英語単語 レコードの文法属性、概念情報を修正しました(数レコード)。 ・日英対訳 単語辞書との対応が付かない不要なレコードを削除しました。 (約350) ・英日対訳 単語辞書との対応が付かない不要なレコードを削除しました。 (約500) また、訳語種別の値を0に確定したため、約40000レコードに 差分があります。 ・概念体系 約60概念の分類を変更し、新たに約20概念を追加分類しました。 ・概念見出し 新たに約20概念を追加しました。 注:V1.5の辞書をお持ちの方に、    不用レコードの削除ですが、対訳辞書に対応する単語辞書のエン    トリーがなく文法属性を得られないものを調査し、確認の上、削    除しました。現状で支障のない方は新版への改版は不要です。   ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー 以上の通りでございます。ぜひ新版をご利用下さいますよう、お願い申し上げます。