知能科学融合研究開発推進センター




利用可能なデータ

言語資源

文脈類似語データベース
約100万の見出し語それぞれに対して、Web文書上での出現文脈が最も類似している名詞最大500個を類似度とともに列挙したものです。

動詞含意関係データベース
含意関係が成立している動詞のペア(52,689ペア)と含意関係が成立していない動詞のペア(68,819ペア)の計121,508ペアを列挙したものです。

負担・トラブル表現リスト
「災害」「心理的ストレス」「アスベスト汚染」など社会活動に負荷を与えたり、マイナス効果をもたらす問題や障害に関係する表現、20,115件を収録したものです。

上位語階層データ
上位下位関係抽出ツールによって日本語Wikipedia(2007/03/28版)から自動獲得した上位下位関係の上位語を人手で階層化したもので、合計約69,000名詞句から成る階層的シソーラスです。

単語共起頻度データベース
各単語に対して、それとの意味的関連を表す共起スコアの高い単語を、スコアの高い順に、スコアとともに列挙したものです。

日本語パターン言い換えデータベース
文の係り受け解析の結果を利用して、「AはBが豊富です」のような、一文中で任意の名詞AとBを結ぶパターンに対して、言い換えが可能な別のパターンを収集したものです。

異表記対データベース
文字レベルの編集距離の近い、日本語の語句の異表記対(あるいは「表記揺れの対」)の正例と負例を集めたものです。

日本語係り受けデータベース
大量の日本語文書を係り受け解析した結果から係り受け関係を抽出し、その頻度を収録したものです。

基本的意味関係の事例ベース
約1億ページのWeb文書上において文脈の類似度が高い2語間の意味的関係を人手で分類し、ラベル付けした102,436語対を収録したものです。

京都観光ブログの評価情報付与データ
「京都観光ブログ」と京都観光ブログの「評価情報付与データ」から構成され、前者は京都観光を中心とした執筆者47名・合計1041記事(平均約480字)から構成される日本語ブログ記事のデータベースです。後者は前者に対して評価情報(評判・意見)が人手で抽出され、評価保持者、評価表現、評価対象などが付与されたデータです。

実証実験コーパスを用いた言語モデルおよび辞書
大規模音声翻訳実証実験において収集された日英中韓4か国語の実利用音声データを書き起こした約17万発話を形態素解析処理したものから作成したNグラム頻度(4グラム)データおよび、音声認識に用いるための発音辞書です。

日英翻訳エンジン学習・評価用対訳コーパス
IWSLT(International Workshop on Spoken Language Translation)の2005年評価キャンペーンの日英翻訳で使用された基本旅行会話データセットに基づいて作られたコーパスで、翻訳機器学習用データ20,000文、評価用データ1,500文(日英対訳文)から構成されています。

音声翻訳実証実験固有名詞対訳辞書
平成21年度「地域の観光に貢献する自動音声翻訳技術の実証実験」で採択された5つのプロジェクトにおいて収集した日・英・中・韓国語の固有名詞辞書をNICTで整備した辞書です。

日中特許用語辞書
日中特許用語辞書を、日中特許対訳コーパスを元に、各種自然言語処理ツールを用いて自動構築し、最後に人手による修正作業を行って整備したものです。

CNP用中国語解析モデル
オープンソースソフトウェアとして配布している係り受け解析器(A Chinese Dependency Parser,略称CNP)のための中国語解析用モデルパラメータです。

JPO・NICT英日対訳コーパス
英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びNICTが共同で作成したデータです。

JPO・NICT韓日対訳コーパス
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びNICTが共同で作成したデータです。

意見(評価表現)抽出ツール用モデル
オープンソースソフトウェアとして配布されている「意見(評価表現)抽出ツール」のための意見解析用モデルファイルと評価表現辞書から構成されたモデルです。



音声資源

日本語高齢者音声データベース
日本語を母国語とする60歳以上の話者の読み上げ音声です。

中国語音声データベース
中国各地域出身の母国語話者による中国語(普通話)読み上げ音声および自由発話音声です。

日本語音声データベース
ATRにて開発された、音素バランス文などの文や定形単語を発話内容とする、プロナレータによる多数話者日本語音声データベースです。

ノンネイティブ英語音声データベース
非母語話者の英語読み上げ音声です。

京都観光案内対話データベース
プロの観光ガイドと、旅行者を模した被験者の2名による対面対話を収録し、書き起こしたデータです。

日本語小学生音声データベース
音響モデル学習用の、小学校1年生から4年生までの話者が読み上げた旅行会話及び音素バランス文章です。

日英・日中バイリンガル独話音声データベース
日英または日中のバイリンガルである声優または一般人が発声した音声コーパスです。

NICT声優対話コーパス
声優による、台本に基づいた掛け合いを収録した音声コーパスです。


バイオ関連

細胞内分子情報データ
遺伝子発現プロファイルデータ、および細胞内蛍光タンパク質分布データライブラリです。


脳情報関連

自然動画視聴下ヒト脳活動データ(リンク先:英文)
ヒトの自然動画視聴下にけるfMRIによる脳活動データセットです。
3名の被験者に対して各3回のfMRIセッションで収集しており、(ⅰ)fMRI計測データ、(ⅱ)提示刺激データ、(ⅲ)脳構造画像から構成されています。
データの詳細、利用規約等については、こちらをご参照ください。