音声コミュニケーション技術の研究

stock-photo-20195203-business-meeting-cropped
コンピュータに人間の話した音声を聞き取らせる音声認識技術や,人間の声で話させる音声合成技術の研究が始まったのは今から50年以上も前のことです.この二つの技術は,人間と自然に会話できるコンピュータやロボット,世界中の人々が言葉の壁を感じることなくコミュニケーションが取れる音声翻訳機といった夢のシステムの実現に必要不可欠な要素として精力的に研究されてきました.これまでの研究成果とコンピュータの進歩によって,音声認識・音声合成の性能は大きく進歩してきましたが,未だ人間の能力には遠く及ばないのが現状であり,認知・表現能力の高度化に向けた研究開発が強く求められています.

  • 便利な音声インタフェース
    スマートフォンの爆発的な普及により,多くのユーザがキーボード入力に代わる情報入力手段として,音声入力の利便性を体験しています.スマートフォンに音声でコマンドや質問を入力すると合成音声で応答を返すシステムや,旅行会話等の音声翻訳が可能なシステムが実用化されており,今後のモバイル端末を中心とする応用拡大への期待が高まっています.しかし,現在のシステムは,一人のユーザが静かな環境で想定内の内容を丁寧に話した場合は精度良く動作しますが,騒がしい環境下で想定外の内容や不明瞭な発音を含む等の悪条件が重なれば,正しく音声が認識されず誤動作することが多々あります.私たちは,どのような利用環境・利用方法にも頑健な音声認識を実現するため,ユーザの声だけをきれいに抽出する音響処理技術や,話者の変動・不明瞭な発音にも頑健な音響モデリング,広範な話題をカバーする辞書・言語モデリングなどの研究に取り組んでいます.
  • 世界の出来事を知るための技術
    世界中で起きている様々な出来事の中で,私たちが知り得ている情報はわずかに過ぎません.世界中の放送ニュースに対して音声翻訳が可能になれば,日本語による情報検索がもっと容易になるでしょう.話者認識技術によって特定の話者の発話検索が可能になれば,WEB上の生の音声を検索して,より直接的にメッセージの真意を知ることができるかも知れません.さらに,人間の音声に留まらず,音響イベントを認識する事で,個人がアップロードした動画等から事件,事故,災害などに関する情報を素早く入手でき,より早い対応が可能になるでしょう.このように,私たちは音声,話者,音響イベントの認識を可能にし,翻訳技術と組み合わせることで,世界の出来事をピンポイントで素早く知るための音声・音響処理技術の研究を進めています.
  • 世界中の人を結ぶ音声コミュニケーション技術
    音声は人間と人間が意志疎通をするための自然なコミュニケーションの手段です.しかし,言語が異なる場合は音声であっても意志疎通することができません.これまで我々は言語の壁を超えるべく,日本語を主として多言語の音声翻訳技術を研究開発してきましたが,さらに多くの世界中の言語を音声翻訳するため,世界の研究機関と共に国際研究コンソーシアムU-STAR(http://www.ustar-consortium.com/)を2010年に立ち上げました.現在,25ヶ国から30研究機関が加盟しております.各国の母語の音声翻訳サーバをネットワークで接続することで,音声翻訳ネットワークを世界に拡大し,実証実験を通して実利用データを収集し多言語音声翻訳技術の研究開発を推進しています.

    また,障碍者の方と健常者の方がコミュニケーションを取ろうとした場合,音声ではコミュニケーションが取れない場合があります.音声コミュニケーション技術を用いて,耳の代わりに音声を聞き取りテキストに書き起こし,目の代わりにテキストを読み取り合成音声で読み上げ,障碍者や高齢者などの方々のコミュニケーションをサポートする試みを行っております.