English

大規模オープンソース日英対訳コーパスの構築

このページでは,石坂他(2009)で発表された日英対訳コーパスのうちで,著作権の観点から対訳データを配布可能なことが確認されたものをリストします.(著作権上の問題があるものを発見した場合には,内山まで御連絡ください.それらについては削除します.) ここにリストされている対訳データの編集著作権については,そのライセンスはCreative Commons Attribution-Share Alike 3.0 Unportedとしますので,御活用下さい.ただし,この対訳データを利用する際には,対訳データのライセンスだけでなく,原文(英語)と訳文(日本語)の双方のライセンスに従う必要があることに御注意下さい.なお,ここにある対訳データはみんなの翻訳から検索できます. リストの仕方は以下の通りです.

対訳データを収集したソフトウェアの名前

英語文書と日本語文書は対訳データを作成するときに利用した文書です. 対訳データを展開すると,以下のディレクトリができます.
je/	
    align/:アライメントの出力結果
        align/ 以下のファイルは以下の構成になっている

            SCORE ||| NM ||| JA ||| EN

            ===============================================
            名前        意味	
            -----------------------------------------------
            SCORE       対訳の正確さのスコア(min 0 max 1)
            NM          日本語文が N 文 対 英語文が M文	
            JA          日本語文
            EN          英語文
            ===============================================

    para.txt:align/以下のファイルでNMが1-1,1-2,2-1の行を抜きだしたもの
        para.txtは以下のような構成になっている
		
			SCORE ||| JA ||| EN

    日本語は EUC でエンコードされている.

対訳データのリスト

FreeBSD

Gentoo_Linux

JM

JF

NetBeans

PEAR

PHP

PostgreSQL

Python

XFree86


Last updated: Wed May 20 14:25:13 JST 2009