<お知らせ> 2003.10.8更新
EDR電子化辞書がリニューアル
平成15年10月1日に、日本語単語辞書、概念辞書を中心に改版したものがリリースされました。
今回の改版では、最近の新聞記事や、既存のEDR日本語コーパス内からも未知語を収集し、追加いたしました。
Ver2との比較は以下の通りとなっております。
- 新規登録単語数 約17,000語
- 新規登録概念数 約13,000概念
なお、東京工業大学 田中穂積研究室のご好意により、日本語コーパス(日本語共起辞書の付録)には、日本語コーパス内の約1万文に関して文法ラベルをつけたものも収めてあります。あわせてご利用ください。
<日本語単語辞書>
日本語単語辞書の 2版からの主な改良・拡張は以下のとおりです。
(1)語彙の追加(16914語)
- 各品詞ごとの語彙数は以下の通りです。
- 名詞:4608
- 固有名詞:11800
- サ変名詞:248
- 副詞:64
- 動詞:61
- 形容詞:12
- 形容動詞:60
- 接頭語:9
- 接尾語:42
- 連体詞:7
- 接続詞:1
- 感動詞:2
- EDR辞書の1版が出てから時間も経っている事から、辞書の評価結果から未知語を抽出し、その中から用語を選択して追加してあります。また、固有名詞が足りないというご指摘もあったことで、固有名詞も追加されています。
固有名詞については、2版から組み込まれた「人名、地名、組織名」といった分類コードを用法フィールドに明記して追加を行なっています。必要な用語は、このマークを判定材料にしてご利用ください。
その中で、特に会社名については、別ファイル(JWC.DIC)と言う形にまとめました。2版においても、会社名は含まれていましたが、社名は変更も多いこともあり、別ファイルにしました。内部の仕様については、同じ形式となっています。
このような会社名も含め、固有名詞をどのようにまとめたら良いか、ご提案いただければ幸いです。
(2)ユーザー指摘のバグ対応(311語)
- EDRに寄せられたユーザからのレポートに対応しました。
(3)接続テーブルファイルの修正
- 左右の連接属性間の連接可否情報を見直しました
<概念辞書>
概念辞書(V3.0)は、2版に対して以下のような改良が行なわれております。
・概念体系の2版からの主な改良・拡張は以下の通りです。
(1)単語追加に伴う概念登録追加(約13000件)
- 単語追加などに従い、新規概念を追加したものについて概念体系への登録を行ないました。
(2) 未分類概念の処理(約8700件)
- 2版に含まれていた未分類概念を調査し、体系上の適切な位置に配置替えを行ないました。
・概念見出し辞書の2版からの主な改良・拡張は以下の通りです。
(1)単語辞書の改良に伴って、約13000レコードの意味情報を修正しました。
(2) 単語辞書の改良に伴って、約50レコードの意味情報を修正しました。
EDR電子化辞書の価格の改定
・一般
研究利用料 : 各辞書あたり120万円
商用利用料 : 各辞書あたり120万円
改版料 : 各辞書あたり40万円
・アカデミック
学術利用料 : 各辞書あたり5万円