知能科学融合研究開発推進センター




翻訳バンク


翻訳バンクとは

総務省とNICTは、世界の「言葉の壁」をなくすことを目指すグローバルコミュニケーション計画を推進しており、その一環としてNICTは音声翻訳("VoiceTra"と呼ぶ)とテキスト翻訳("TexTra"と呼ぶ)の研究・開発・社会実装を進めています。これまでNICTにおいても翻訳の高精度化に必要な翻訳データの集積に取り組むとともに、2017年6月からニューラル機械翻訳技術の導入等を進めておりますが、翻訳技術を活用する分野によっては翻訳データが足りないことが課題となっています。



 このような問題意識の下、総務省とNICTは、様々な分野における翻訳データの集積に向けて、NICTが様々な分野の翻訳データを集積して活用する「翻訳バンク」の運用を開始しました。


図「翻訳バンク」のコンセプト


 「翻訳バンク」の運用にあたり、データを提供していただく方のメリットを明確化するため、NICTの自動翻訳技術の使用ライセンス料の算定の際に、提供が見込まれる翻訳データを勘案して負担を軽減する仕組みを用意しています。

 総務省とNICTは「翻訳バンク」等のプロジェクトを通じ、様々な分野で高精度翻訳を実現することで「言葉の壁」をなくし、日本を「世界で最も多言語コミュニケーションが容易な国」にすることによって、日本の経済・社会の活性化に貢献したいと考えています。



FAQ(よくある質問と回答)

Q.翻訳(対訳)データとは何でしょうか。

A.様々な言語による「原文」とそれが翻訳された「訳文」の対を集めたものです。


Q.翻訳データは、どのような形式で提供することが望ましいのでしょうか。

A.文単位で対応付けられた形式(例:表計算ソフトの隣り合う列に、原文と訳文が行ごとに対に並んでいる形式)により提供されることが最も望ましいです。また、文書ファイルやテキストファイル等の電子ファイルにより文章単位で提供されることも歓迎です。(なお、この場合、NICTにおいてプログラムで文単位に対応付けを行います。)


Q.提供する翻訳データは、どの言語を対象としているのでしょうか。

A.日本語と任意の外国語とのペアを主対象としていますが、日本語を含まない翻訳データ(例:中国語と英語のペア)も歓迎します。


Q.翻訳バンクには、どのような組織が既に翻訳データを提供しているのでしょうか。

A.地方自治体、企業、各種団体などから、幅広く提供を受けております。


Q.提供する翻訳データの対象は、どんな内容でも良いのでしょうか。例えば、取扱説明書や工場のマニュアルなどの分野も対象となるのでしょうか。

A.内容・分野は特に限定しておりません。


Q.提供したデータは、どのように利用されるのでしょうか。

A.NICTが研究開発を行っている、高精度自動翻訳システムの精度をさらに向上するため、提供された「翻訳データ」から翻訳における単語の選択や語順の変更を統計的に学習するために用います。統計処理のため、データ量に応じて翻訳精度が上がります。


Q.提供した翻訳データに係る知的財産権は、どのように扱われるのでしょうか。

A.NICTは翻訳データの使用権(複製、翻訳、翻案、追加、削除、統計処理、解析等を行う権利)の許諾を受け、著作権その他の権利は原権利者に帰属することになります。提供者の許可無しに翻訳データ自体を第三者に提供することはございません。データの提供に関する契約の詳細に関しては、下記連絡先にお問い合わせください。


Q.翻訳データを提供するメリットは何でしょうか。

A.大きく、①NICTの研究開発した自動翻訳システムを使用されたい方にとっては、ライセンス料算定時に提供翻訳データを考慮して自動翻訳技術の使用料負担が軽減されるという固有のメリットと、②自動翻訳システムの多分野化・高精度化への貢献という広く社会的・公共的な意義との2つがあります。


Q.ライセンス料とは何でしょうか。

A.NICTが研究開発した技術をご利用いただく場合の技術移転の対価です。


Q.ライセンス料は、どの程度の金額なのでしょうか。また、翻訳バンクにデータを提供すると、どの程度ライセンス料が低減されるのでしょうか。

A.ライセンス料はNICTの自動翻訳システムの利用形態や期間等に応じて異なることや、ご提供いただく翻訳データの品質・分量に応じて異なることから、詳しくは下記連絡先にお問い合わせください。


Q.翻訳データの品質は、どのようなものでも構わないのでしょうか。

A.ご提供いただくデータの品質は問いません。NICTで品質を判断し、自動翻訳システムの精度を向上させるために適切な方法で利用させていただくことになります。


Q.翻訳データを提供した場合、自分が提供したデータの領域だけでなく、全領域を対象とする自動翻訳システムがライセンスされるのでしょうか。

A.そのとおりです。


Q.翻訳バンクにおいて、翻訳データの収集目標はどのくらいの量でしょうか。

A.当面の目標として、100社・組織から各100万文の、1億文のデータ集積を目指しています。一方で、日本では、年間約2000億円が翻訳に投じられているという調査があり、この数字に基づいて年間5億文の翻訳データが生産されていると推定しておりますので、実現可能な目標と考えております。


Q.翻訳バンクのデータが蓄積された場合、ユーザにはどのようなメリットがあるのでしょうか。例えば、一般ユーザが利用する場合、どのようなインターフェイスで利用できるのでしょうか。

A.提供いただいた翻訳データは他の翻訳データとともに集積され、自動翻訳システムの精度向上に役立てられます。精度向上した自動翻訳の利用には、①TexTraやVoiceTraといったNICTの試験提供を通じてご利用いただく、②NICTからライセンスを受けていただく、③NICTからライセンスを受けた企業等の製品やサービスをご利用いただくという方法があります。


お問い合わせ先

翻訳データの提供に関するお問い合わせ
自動翻訳技術のライセンスに関するお問い合わせ


関連リンク

VoiceTra
TexTra
みんなの翻訳
こえとら
SpeechCanvas