NICT テニュアトラック研究員 東山 翔平
NICTの人 ICTで、未来をどうする?

テニュアトラック研究員

東山 翔平

  • ユニバーサルコミュニケーション研究所
  • 先進的音声翻訳研究開発推進センター
  • 先進的翻訳技術研究室 研究員
  • 2019年入構

[プロフィール]

兵庫県神戸市出身。2012年、神戸大学工学部情報知能工学科卒。2014年、同大学院システム情報学研究科博士課程前期課程修了。2022年、奈良先端科学技術大学院大学先端科学技術研究科博士後期課程修了。 2014年、電機メーカーに入社。2019年、NICTに入構、2022年より奈良先端科学技術大学院大学客員助教を兼任、現在に至る。

※部署・役職はインタビュー当時のものとなります。

ICTで、未来をどうする?

人文知と接続する、ICTを実現

NICT テニュアトラック研究員 東山 翔平

「自然言語処理」は、「人が『ことば』を読み解く活動」をサポートすることで、物質的のみならず精神的な豊かさをもたらす。人文学は、過去から現在に至る人々の思考や経験が記された膨大な文献を読み解き、人間の生き方や社会のあり方を含めた知見として「人文知」を積み上げてきた。この膨大な日本の歴史的資料を現代語に自動翻訳し、誰もが手軽に「人文知」にアクセスできる技術を実現する。

NICT テニュアトラック研究員 東山 翔平

ことばに対する好奇心から、自然言語処理の研究分野へ。

子供の頃からことばに興味があり、知らない単語や文字を辞書や字典で調べていました。新しいことばに対する好奇心が強かったのだと思います。コンピュータに興味を持ったことから、大学では情報知能工学科に進みました。大学の図書館で手にした「自然言語処理」の専門書がきっかけで、「人間の言語は曖昧なのに、それでもコミュニケーションが成立していること」を改めて不思議に思い、複雑な言語をどうやってコンピュータで処理するのかを学んでみたいと思うようになりました。大学時代の研究テーマは、自然言語処理分野の中の「固有表現抽出」。言語データを処理する上で基本的な情報の一つとして、文章の中から固有名詞にあたる人名や地名、組織名などを自動抽出する研究に取り組みました。学部・修士を経て、企業の研究職に就職しましたが、研究成果を思うように出せず悩んでいた時期もあり、たまたまNICTに縁のある方から話を聞いて興味を持ったことが、入構のきっかけとなりました。

NICT テニュアトラック研究員 東山 翔平

自動同時通訳技術につながる
基礎的な言語解析技術の研究に取り組む。

ユニバーサルコミュニケーション研究所では、「誰もがことばの壁なく意思疎通できるユニバーサルコミュニケーションの実現」という目標の下、多言語の自動翻訳(機械翻訳)技術を中心とした研究開発を行っています。特に、総務省のグローバルコミュニケーション計画に基づく自動同時通訳技術の研究開発と社会実装に注力しており、私もその一部を担当しています。一方、テニュアトラック期間の研究として個人的に発案したプロジェクトでは、同時通訳を含む自動翻訳に役立つ基礎的な「言語解析技術」における、ことばの「バリエーション」と「曖昧性」の問題解決に向けた研究に取り組んでいます。バリエーション(表記揺れ)とは、同じことばに複数の言い方・書き方があることを指し、例えば、SNS等では、「フォロー」が「ふぉろー」「ふぉろ」「ヒョロー」のように書かれることがあります。自動翻訳では、機械がこうした表現を同じものと認識し、「follow」に該当する単語として訳す必要があります。一方、曖昧性とは、同じことば(同じ表記の文字列)が文脈によって異なるものを指す現象のことで、例えば、「神大」という略語は、神戸大学(「しんだい」)を指す場合と、神奈川大学(「じんだい」)を指す場合があり、どちらを指すかによって訳語が異なります。そのため、自動翻訳では、そのことばが指す対象を文脈から正確に特定しないと、誤った翻訳結果になることがあります。私の研究では、こうした問題・現象をシステムが解けるかどうかを評価するためのベンチマークデータを構築し、問題解決のためのシステムを開発し、実際に評価するという手順で研究を進めています。

プロジェクトと私

プロジェクトと私

自然言語処理の技術は、様々なところで使われますが、その基礎となるのが、ことばの意味を解析する言語解析技術です。ことばのバリエーションが違っても同じものと認識し、 曖昧性を持つことばも文脈に応じて適切な対象を特定することで、正確な翻訳が可能になります。
上図は、曖昧性を持つことばを含む文章のデータに関する図です。図の文章中の「元町」は全国各地にある地名であり、「元町」という単語だけから場所を特定することはできませんが、周囲の文脈を踏まえると「函館市」の「元町」を指していると読み取れます。このようなことばと概念の対応関係を、テキストと知識ベース(百科事典的辞書)の間で明示的に対応づけたデータとなっており、そうした関係性を機械に学習させたり、学習の結果、適切な対応づけができるようになったかを評価をするために活用しています。
下図は、日本語のSNS投稿と、それをプロの翻訳者が英語等に翻訳した文章のデータに関する図です。見慣れないバリエーションが生じると、機械は容易に解析に失敗します。SNS特有の変わった表記を含む原文であっても、機械が適切に翻訳できるかどうかを評価するためのデータとなっています。

NICT テニュアトラック研究員 東山 翔平

人文学の資料や知見をすべての人に身近なものにする。

これまで行ってきた私の研究テーマは、自動音声翻訳という当研究所のコア技術に対して、その土台の一部となることを目指したものですが、今後は研究所が目指す「ユニバーサルコミュニケーション」の範囲を広げるような研究を進めていきたいと考えています。具体的には、過去の時代の日本語で書かれた古典文学や歴史学資料のような文献、つまり歴史的資料を、現代の言語に自動翻訳する研究で、日本の古典や歴史、文化を身近にする、広い意味でのテキストコミュニケーションの技術を扱うものです。2026年度からのNICTの次期中長期計画では、当研究所として、言語圏ごとの文化を理解可能な多言語大規模言語モデルや、文化的ニュアンスを伝達できる自動翻訳技術の研究開発に取り組むことを予定しており、私の研究では、日本の歴史的文化という観点からNICTの研究を広げつつ、貢献することを目指しています。

これまで個々の研究者が取り組んできた人文学研究の成果は、一般の人にとって必ずしも身近なものではなかったと思います。専門知識を持たない人でも機械の支援を受けながら歴史的資料を読めるようになることは、古典や歴史や文化に親しみ、人文知への理解を深めていくきっかけ・手段にもなり、価値あることだと考えています。また、専門家によって現代語訳されていない膨大な歴史的資料がありますので、そうした資料の活用の機会を増やすものとして、この研究テーマには可能性を感じています。今後、自らの研究の成果が、人文学、情報学、そして一般の人にも役に立つものになることを願っています。

NICT テニュアトラック研究員 東山 翔平
NICT テニュアトラック研究員 東山 翔平

※写真はイメージです

[もうひとつの顔]

趣味は、移動。
全国の市区町村制覇が目標。

移動が趣味です。徒歩や自転車、車など、それぞれのスケールで、なるべく遠くまで行き、知らない場所を訪れることで、脳が良い刺激を受けます。移動中に研究のことを考えていることも多く、心身のリフレッシュと研究アイデアの着想という一石二鳥になることもしばしば。 全国の市区町村をすべて訪れるのを目標としており、現時点で、1,741市区町村中600ほど達成したところです。

トップへ戻る▲