大規模オープンソース日英対訳コーパスの構築

このページでは，石坂他(2009)で発表された日英対訳コーパスのうちで，著作権の観点から対訳データを配布可能なことが確認されたものをリストします．ここにリストされている対訳データの編集著作権については，そのライセンスはCreative Commons Attribution-Share Alike 3.0 Unportedとしますので，御活用下さい．ただし，この対訳データを利用する際には，対訳データのライセンスだけでなく，原文(英語)と訳文(日本語)の双方のライセンスに従う必要があることに御注意下さい．

石坂達也，内山将夫，隅田英一郎，山本和英 (2009) 大規模オープンソース日英対訳コーパスの構築．情報処理学会第191回自然言語処理研究会

リストの仕方は以下の通りです．

対訳データを収集したソフトウェアの名前

英語サイト: 英語サイトのURL / ライセンス
日本語サイト: 日本語サイトのURL / ライセンス
対訳データ: 対訳データ

英語文書と日本語文書は対訳データを作成するときに利用した文書です．対訳データを展開すると，以下のディレクトリができます．

je/	
    align/：アライメントの出力結果
        align/ 以下のファイルは以下の構成になっている

            SCORE ||| NM ||| JA ||| EN

            ===============================================
            名前        意味	
            -----------------------------------------------
            SCORE       対訳の正確さのスコア(min 0 max 1)
            NM          日本語文が N 文 対 英語文が M文	
            JA          日本語文
            EN          英語文
            ===============================================

    para.txt：align/以下のファイルでNMが1-1,1-2,2-1の行を抜きだしたもの
        para.txtは以下のような構成になっている
		
			SCORE ||| JA ||| EN

    日本語は EUC でエンコードされている．

対訳データのリスト

Last updated: Wed May 20 14:25:13 JST 2009

大規模オープンソース日英対訳コーパスの構築

対訳データを収集したソフトウェアの名前

対訳データのリスト

FreeBSD

Gentoo_Linux

JM

JF

NetBeans

PEAR

PHP

PostgreSQL

Python

XFree86