計算機環境
数億ページを超えるWebなどの大規模な言語データを処理するためには、強力な計算機パワーが不可欠です。そのため、情報分析研究室では、多数のクラスタマシンや大容量メモリ搭載マシンを利用しています。これらの利用によりはじめて、トップページで紹介している音声質問応答システム「一休」の開発や大規模な概念辞書の構築、また、ALAGINフォーラムを通した各種言語資源の配信や言語処理サービスの提供が可能となりました。
現時点(2010/11/28)での主な計算機環境は以下の通りです。近々、1TBのメモリを搭載したマシンなどが追加される予定です。また、当研究室が所属するユニバーサルコミュニケーション研究所では、Webを利用した言語処理研究の共通基盤として総ディスク容量4PBの100ノード(1,200コア)規模のクラスタシステムを導入する予定であり、十分な計算機パワーに支えられた研究を行うことができます。
クラスタ計算機 [CPU数(コア数)/メモリ/HDD]
- Xeon or Opteron 2.2Ghz〜3.8GHz, メモリ 8GB〜72GB, ディスク 18TB〜39TB x 122ノード
- 計: 226CPU (844コア), 4.5TBメモリ, 1.7PBディスク
大容量メモリ搭載SMPマシン
- Opteron 8350 2GHz 4(16)/128GB/3.2TB x 2台
- Xeon E7450 2.4GHz 4(24)/256GB/1.3TB x 1台
- Xeon X7560 2.66GHz 4(24)/256GB/1.1TB x 3台
- Xeon X7542 2.66HGz 2(24)/1TB/3TB x 1台 (予定)
- 計: 14CPU (152コア), 2.3TBメモリ, 8.6TBディスク
- 各計算機は、1GbE または InfiniBand (40Gbps)のネットワークで接続されています。
- その他、計100TBを超えるファイルサーバ(ホームディレクトリ等)があります。
クラスタ計算機外観
VGXPで可視化した計算機の利用状況
その他
言語の研究では、言語を操る人間の直感・判断を元にしなければ解明できない事がたくさんあります。当研究室には、言語資源のアノテーションや実験における人手評価作業のため、現在フルタイムのアノテータが11人所属しています。